通过视觉信号预测驾驶员意图

2019-05-22 11:09

本篇文章提出了一种利用深度神经网络来检测视频序列中信号的方法，采用该方法对超过一百万帧视频资源进行实验，实验结果表明，采用该方法，每帧的精度都很高。

ICRA（International Conference on Robotics and Automation）是IEEE机器人与自动化学会的旗舰会议。2019年的ICRA在加拿大蒙特利尔于当地时间5月20日盛大召开。本次ICRA会议，有众多行业大咖分享最新的学术成果，并设立一个行业论坛和IERA计划、一个政府论坛和一个ICRA－X机器人艺术论坛。

图片选自ICRA官方网站

往届的ICRA，汇集世界顶尖研究人员和企业，共同分享最新的研究成果，很多的机器人和自动化领域的重要前沿科技均是在ICRA首度曝光。随着机器人自动化领域的不断扩大，以行业为中心的活动不断增加，今年的ICRA2019汇集了更多行业领军人才及企业。

在每日的keynote演讲嘉宾名单中，小编发现了Raquel Urtasun。Raquel Urtasun是优步ATG首席科学家兼优步ATG多伦多负责人，是多伦多大学计算机科学系的副教授，加拿大机器学习和计算机视觉研究主席以及人工智能矢量研究所的联合创始人。研究领域包括：自动驾驶汽车，计算机视觉，机器学习，遥感和机器人。她的实验室被选为NVIDIA NVAIL实验室。曾获得NSERC EWR Steacie、NVIDIA AI奖，教育和创新早期研究员奖，三个Google Faculty Research奖。

22日，Raquel Urtasun将为ICRA做主题为“A future affordable self－driving vehicles”的主旨演讲。因为她的主题还未发表，那么我们先来看看Raquel Urtasun实验室的投稿论文吧。

小编发现，在Raquel Urtasun实验室主页上显示，有一篇题为“深度信号：通过视觉信号预测驾驶员意图 DeepSignals： Predicting Intent of Drivers Through Visual Signals”中投ICRA。本篇文章提出了一种利用深度神经网络来检测视频序列中信号的方法，采用该方法对超过一百万帧视频资源进行实验，实验结果表明，采用该方法，每帧的精度都很高。

文章详情

在自动驾驶汽车成为常态之前，人类和机器人将不得不共享道路。在这种共享的场景中，车辆之间的通信对于向其他车辆发出紧急或危险的演习警报至关重要。因此，对人类意图的社会理解对自我驱动的进步至关重要。这给自动驾驶系统带来了额外的复杂性，因为这种交互通常很难学习模仿。司机们相互交流意图，以便做出临时决策的动作，以便在更早的时候发出警告，而不是通过运动来推断。虽然驾驶员的动作传达了意图，例如，当驾驶员减速以表示其他车辆可以并道，或接近车道边界以表示所需的合并位置时，驾驶员的动作提示是微妙的、全动作相关的、并且是短期瞬时的。相比之下，视觉信号，尤其是信号灯，是清晰的，可以提前很长时间发出警告，这种警告表示可能出现的意外动作。

例如，如果没有检测到转弯信号，一辆停着的汽车在驶入迎面而来的车流时，同样有可能保持停着不动。类似地，当司机计划在另一辆车前面停车时，他们通常会提前发出安全信号。公共汽车在停车接送乘客时也会发出闪光信号，允许从后面驶来的车辆改变车道，从而减少了延误和拥堵。当司机了解其他交通参与者的意图，这些日常行为是安全的；但如果忽视视觉信号是危险的。因此，人类希望自动驾驶汽车做出反应，通过视觉信号预测驾驶员意图的问题，并特别关注于解释信号灯。

图2 来自1，257，591个标记帧的数据集的挑战性场景。

研究人员在一个全新的、具有挑战性的真实数据集上展示了他们的方法的有效性，该数据集包含来自他们实验室的自动驾驶平台的34小时视频。该数据集包括在真实的（黑夜白天）城市驾驶场景中发现的不利条件，包括拥堵、远距离和不常见的车辆、恶劣天气等各种场景（参见图2）。

图3 在这项工作中，研究人员建议使用一个卷积循环架构来分类车辆的转弯信号状态。对于每个输入帧，使用全卷积网络预测掩码（a），然后使用原始输入图像获取element－wise，并使用基于vgg16的CNN提取空间特征（b），然后合并使用卷积LSTM时序特性（c），从最终隐藏状态出发，预测了车辆转弯信号状态和视场面的概率分布（d）。

该模型的建立是为了解决三个问题：attention意图，识别行为人的信号灯； understanding语义理解，识别遮挡和观察行动者的方向； temporal reasoning时间推理，以区别闪烁灯和持久灯。针对这些问题研究人员设计了一个深度学习体系结构。请参考图3以获得详细说明。输入帧首先由应用空间掩码的attention模块进行处理，然后使用深度卷积网络恢复空间概念。然后，将每帧的信息输入卷积LSTM，将转弯信号和紧急闪光的时间模式与其他内容区分开来。生成的时空特征被传递到完全连接的层中进行分类。

研究人员使用多任务丢失来训练模型。具体来说，在任务上定义了加权交叉熵损失。给定模型输入x，地面真值标签y，模型权值θ，任务权值γ，网络函数σ，损失函数为：

其中每个任务损失使用交叉熵定义为：

由于没有用于转弯信号分类的公共数据集，研究人员在自主驾驶平台上记录了超过10000条10赫兹下的车辆轨迹，并将其标记为转弯信号状态，总共标记了1，257，591帧。每一帧都被标记为左转弯和右转弯灯的ON打开，OFF关闭或UNKNOWN未知。注意，标签标识了每盏灯的概念状态，ON表示即使灯泡没有被点亮，信号也是活动的。这些较低层次的标签被用来推断高层次的动作意图：左转、右转、闪光、关闭和未知。图4a显示了标签的数量，它证明了数据集中对OFF类有相当大的偏向。还显示了距离上的分布（图4c）和视点（图4d）。

比较FC－LSTM、ConvLSTM、cn－clstm以及文章提出的方法，上述指标如表1所示。FC－LSTM性能最弱；这可以解释为全连通层在提取空间特征时效率低下，只有通过网络的大容量来平衡，这使得它可以学习更复杂的功能。ConvLSTM通过利用门的卷积实现了稍好一点的效果，这使得它更适合于空间特征提取。然而，它的内存效率低下阻止了使用更深层次的架构，因此限制了模型的容量。结合这两种方法，得到了一个CNNLSTM，它既能利用CNNs丰富的空间特征提取，又能利用LSTMs的时间特征表示，取得了比之前基线更好的效果。我们提出的方法在LSTM和注意机制中进一步增加了卷积，得到了最好的结果。

混淆矩阵如表2所示。注意，OFF的检测精度明显较高，而FLASHERS的检测精度较低，因为这两个类在数据集中分别表示过多和过少，即使使用分层抽样方案，图4d（a）这种不平衡自然会影响测试性能。

网络故障模式。（a）夜间明亮的灯光被错误地归类为左转。（b）远处车辆右侧的明亮反光被误列为右转弯。（c）一辆不常见的车辆识别结果为没有发出右转信号。（d）姿态解码错误，输出翻转。（e）在载有单车的车辆上作假性左转。

结论

在自动驾驶领域，检测驾驶员的意图是一项必不可少的任务，是预测诸如变道和停车等突发事件的必要手段。在本文中，研究人员解决了转弯信号分类这一重要而尚未探索的问题。提出了一种能够端到端的训练方法，能够处理车辆的不同视点。提出的神经网络通过意图、卷积和递归来推断空间和时间特征，从而在帧级对一系列观测信号的转弯信号状态进行分类。该实验使用包含120多万张实况图像的数据集来训练和评估的方法。未来在这个问题上，研究领域将会扩展到紧急车辆信号，以及更多分类的功能（例如来自曝光不足的相机的图像）的识别问题上。

参考：

［1］ Frossard D， Kee E， Urtasun R．DeepSignals： Predicting Intent of Drivers Through Visual Signals［J］． arXivpreprint arXiv：1905．01333， 2019．

［2］ icra2019．org