IJCA2019公开协调ADAS新方法:随机对抗性模仿学习
最小二乘损失函数(3)对决策边界两侧远离标准轨迹的采样轨迹进行惩罚。
该方法可以用公式(4)表示。
公式(5)表示对抗模仿学习与随机对抗模仿学习RAIL的随机参数空间搜索之间的关系。
图3中实验的目的是为了展示样品的效率。为了评估效率,实验考虑了平均车速、换道次数、超车次数、纵向奖励和横向奖励,如图3和图4所示。
由表1可以看出,两层政策的平均车速和平均超车统计量最高,分别为70.38km/h和45.04。这是因为基于盖尔的框架和基于与环境交互的策略优化,经过训练的策略有时可以获得比专业人类驾驶员更高的性能。另一方面,单层策略的性能提高了90%。这是因为单层不足以正确处理高维观测。上述,BC试图将专业演示过程中的1步偏差误差最小化。因此,由于训练和测试之间的分布不匹配,单层策略表现出不理想的性能。
在图4中,使用纵向补偿来分析环境补偿。纵向补偿与速度成正比;因此,归一化结果与图3a所示的平均速度相同。为了评估行动决策的敏感性,使用了横向补偿。在变道完成之前,车辆可以根据观察改变决策。由于换道过程中横向奖励是连续发生的,因此在换道过程中频繁的换道会导致换道过程中奖励的减少。在图4b中,两层策略在最后一种情况下获得了较大的横向奖励。然而,两层策略比专家策略显示了更多的车道变化。这是因为两层策略不太可能在操作期间更改决策。另一方面,单层策略比专家策略更能显示频繁的换道。因为单层策略经常更改其决策,单层策略获得最小的横向补偿。BC表示换道次数最少。然而,经过培训的策略比RAIL培训的单层策略获得了更大的回报。变道数量明显小于单层策略;从而使训练后的策略比单层策略获得更大的横向回报。
通过图3c的实验,模拟专家论证,测量合适的决策。为了获得与专家相似的超车次数,仿真过程中的换道点和决策应与专家相似。在图3c中,两层策略相比之下,显示了预期的性能。此外,决策点和操作与专家相似。然而,单层策略比专家策略显示的接管数量要少。这是因为平均速度较低,并且根据观察做出了不合适的换道决定。
综上所述,验证了RAIL方法提高了平均速度,减少了不必要的变道次数。这就意味着RAIL方法政策方向是正确的。实验结果表明,两层策略取得了与驾驶专家相似的性能。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论