美国国家工程院院士、福特技术研究员 Dimitar Filev ：用于智慧出行的智能车辆系统

2019-06-18 10:16

这些系统已经非常智能，但我们在此基础上设计了智能用户界面让车辆更加定制化以适应不同的用户。虚拟驾驶系统与交通移动云连接，控制着车辆。因此，定制化和智能化是自动驾驶车辆发展的两个方向。

接下来讨论几个驾驶汽车中的应用以及福特在自动驾驶中的研究。在汽车控制中有自动动力系统控制、自动转向控制和半自主悬架系统这些不同的系统经过标定可以实现舒适、常规和运动三种模式之间的切换。

车辆模式的选择共有27中组合，让驾驶员在这之间进行选择是一件困难的事，而智能系统则可以基于道路特点和驾驶员的反应选择最优的模式，这也是定制化的一个方面。另一个重要的应用是智能巡航控制，它基于速度曲线寻找最优的巡航速度设置点来达到最优化燃油消耗的目标。

通过对数字地图的分析、交通标志的识别、道路几何形状的辨别系统能够为驾驶者建议最优的加减速、档位，提供最高效的驾驶模式选择。

此外，分析驾驶员的行为由此生成评估报告、根据车辆在不同时间频繁的行车、停车的记录可以估计出下一个目的地。

福特在自动驾驶领域的布置和发展包括投资了 Argo AI 以及成立了自动驾驶子公司AV LLC，这两家由福特所有的独立实体计划在2021年前完成研发并投入生产。

福特研究自动驾驶采用的是分层级的方法，层级从反射级 Reflexive 到深思级 Reflective。反射级指的是当人们在驾驶时不需要思考而下意识作出的一些举动，Reflective 则是完全相反的，比如人在高速驾驶的时候会不断地思考获取最佳的决策。

分层级方法有三个层级，Decision Making 曾属于高层规划，基于强化学习、博弈论方法；稍低一个层级的 Path Planning主要完成避障等场景；沿着规定好的轨迹行驶则是由最后的 Path Following层级使用模型预测控制完成。

Path Planning 部分使用的是Q强化学习方法，强化学习通过最大化累计收益函数Q函数来获得最佳决策，此处状态为车辆本身以及相邻车辆的实时的横向和纵向位置，行为是车道保持、巡航速度增减以及左右换道。仿真器用来训练神经网络拟合决策Q函数，该算法提供了状态到行动的映射，得到的是贝尔曼方程的实时解。

强化学习近些年变得很火热尤其是谷歌的 Deepmind 推出了AlphaGo取得了成功，他们提出了 Deep Q Learning（DQN），现在几乎成了强化学习的标准。在DQN算法中，我们建立了一个人工目标于是得到：

y与Q的差值可类比监督学习中的预测值与标签的差值，由此得到的时域差用来更新网络得到最优值。在此基础上，Deepmind提出了三个主要的改进形成了double DQN，首先是提出适合多层神经网络的Q函数；第二他们提出一个采样任意的minibatch的方式处理训练网络的数据；第三个则是他们提出了两个Q函数分别为当前Q函数和目标Q函数来更新网络，这些改进使得强化学习更加稳定。

然而，当福特直接使用这些方法是发现训练神经网络经常容易失败并且训练速度很慢。因此他们加入了一些常识性的规则，当发现行为不安全时，将安全的行为加入网络，对碰撞的判别会混合到采样随机minibatch中用于网络的更新，最终结果取得显著性效果。