ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航 - OFweek 人工智能网

当前位置： OFweek 人工智能网 > 自然语言处理 > 正文

ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航

2020-08-06 10:29

一、方法架构

本文的核心——模型未知的对抗路径采样器显示如下，首先APS从路径集P中采样出一批路径、并利用Speaker来得到复现的指令I。

对抗采样器APS的学习架构，其中Speaker表示用于生成导航指令的反向翻译语言模型，而NAV表示导航模型。

在获取路径P和指令I后，模型的目标就在于优化导航损失函数。针对APS学习采样的路径，导航器并不能通过最大化导航损失来得到较好的性能。针对导航损失在导航模型NAV和APS之间会产生对抗的行为，APS不断采样出有挑战性的路径，同时NAV则尝试着在APS申请的路径中进行导航完成任务。通过这种对抗方法，基于P和I生成的对抗增强数据将有效提升NAV的导航能力。在实际过程中，Speaker和导航器都通过原始数据进行了预训练，同时Speaker在对抗训练过程中参数保持固定。

在本文中，研究人员使用了回归行为采样器πAPS来采样行为序列at（基于场景特征ft），并结合得到路径输出。其中ft表示从环境中抽取的视觉特征。对于全景输入图像来说，ftj表示时间t时从视角j获取的视觉特征。

对抗采样器的架构模型

模型首先利用LSTM对先前的视觉特征和上一步行为进行编码，而后基于历史编码和行为嵌入u来决定此时此刻需要采取的行为。APS模型中包含了一系列可学习的权重，具体可以在原文3．3部分找到详细的理论描述。

在通过APS处理后，将得到的一系列导航历史｛at｝和视觉特征｛ftj｝组建成路径P。为了保持与原始训练数据的一致性（其导航路径都是最短路径），需要将APS采样得到的路径转换为最小路径。随后通过Speaker模型为每一条采样路径P生成指令I，最终将得到增强过的数据对（P，I）。随后通过“学生强制”的方法基于（P，I）来对导航模型进行训练，其中训练损失以可以视为NAV在（P，I）下的性能指标，损失越高性能越差。为了创造难度不断增加的路径来改善导航策略，研究人员将APS损失定义为了与LAN损失相关的表示：

由于APS与模型无关，它仅仅考虑导航模型训练损失而不关系模型架构，所以这种机制可以被集成到任意的导航模型中去。

下面的算法展示了整个对抗路径采样器的训练过程，APS目标是最大化导航损失以便创建尽可能困难的路径，而NAV的目标则是最小化导航损失以便进行更好的导航。

<上一页 1 2 3 下一页>

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

暂无评论

图片新闻

最新活动更多

一周热点月点击榜

企业服务广告服务猎头服务薪酬报告

人工智能猎头职位更多

扫码关注公众号
OFweek人工智能网
获取更多精彩内容

文章纠错

x

_*文字标题：

_*纠错内容：

联系邮箱：

_*验证码：

看不清，点击换一张

粤公网安备 44030502002758号