ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航
一、方法架构
本文的核心——模型未知的对抗路径采样器显示如下,首先APS从路径集P中采样出一批路径、并利用Speaker来得到复现的指令I。
对抗采样器APS的学习架构,其中Speaker表示用于生成导航指令的反向翻译语言模型,而NAV表示导航模型。
在获取路径P和指令I后,模型的目标就在于优化导航损失函数。针对APS学习采样的路径,导航器并不能通过最大化导航损失来得到较好的性能。针对导航损失在导航模型NAV和APS之间会产生对抗的行为,APS不断采样出有挑战性的路径,同时NAV则尝试着在APS申请的路径中进行导航完成任务。通过这种对抗方法,基于P和I生成的对抗增强数据将有效提升NAV的导航能力。在实际过程中,Speaker和导航器都通过原始数据进行了预训练,同时Speaker在对抗训练过程中参数保持固定。
在本文中,研究人员使用了回归行为采样器πAPS来采样行为序列at(基于场景特征ft),并结合得到路径输出。其中ft表示从环境中抽取的视觉特征。对于全景输入图像来说,ftj表示时间t时从视角j获取的视觉特征。
对抗采样器的架构模型
模型首先利用LSTM对先前的视觉特征和上一步行为进行编码,而后基于历史编码和行为嵌入u来决定此时此刻需要采取的行为。APS模型中包含了一系列可学习的权重,具体可以在原文3.3部分找到详细的理论描述。
在通过APS处理后,将得到的一系列导航历史{at}和视觉特征{ftj}组建成路径P。为了保持与原始训练数据的一致性(其导航路径都是最短路径),需要将APS采样得到的路径转换为最小路径。随后通过Speaker模型为每一条采样路径P生成指令I,最终将得到增强过的数据对(P,I)。随后通过“学生强制”的方法基于(P,I)来对导航模型进行训练,其中训练损失以可以视为NAV在(P,I)下的性能指标,损失越高性能越差。为了创造难度不断增加的路径来改善导航策略,研究人员将APS损失定义为了与LAN损失相关的表示:
由于APS与模型无关,它仅仅考虑导航模型训练损失而不关系模型架构,所以这种机制可以被集成到任意的导航模型中去。
下面的算法展示了整个对抗路径采样器的训练过程,APS目标是最大化导航损失以便创建尽可能困难的路径,而NAV的目标则是最小化导航损失以便进行更好的导航。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论