智驾行业BEV+Transformer到端到端“追热词”为夺技术终局优势？

2024-08-22 10:35

本文来源：智车科技

自去年以来，业界不断讨论和提及“BEV+Transformer”这一概念，即鸟瞰视图与基于自注意力机制的神经网络架构。卷了半年时间，今年，“端到端”这一概念又迅速成为人们热议的焦点。这两个概念看似截然不同，实则在视觉路线建立的基于Transformer 的架构上有着共通之处，也共同印证了人工智能技术从深度学习向多模态大模型演进的趋势。汽车领域始终处于自动驾驶技术革新的前沿。

BEV+Transformer：

鸟瞰视角下的感知革命

BEV+Transformer技术如同为自动驾驶汽车安装了一双“慧眼”，能够清晰地“看到”周围的环境和障碍物，并做出更加准确的判断。

如果说端到端大模型是自动驾驶领域新晋的“顶流”，那么 BEV+Transformer 可以算得上是它的“前辈”。两者都是在视觉路线建立了基于Transformer 的架构。ChatGPT，其中的“T”即代表了以 Transformer 为基础的大模型。这种模型通过自注意力机制，能够更好地处理和理解复杂的视觉信息，从而在自动驾驶领域发挥重要作用。BEV+Transformer 架构通过鸟瞰视图，能够提供更全面、更准确的环境感知能力，为自动驾驶系统提供更可靠的决策支持。因此，BEV+Transformer可以被视为自动驾驶领域的重要里程碑，为未来的发展奠定了坚实的基础。

清华大学苏州汽车研究院智能网联中心技术总监孙辉先生指出，BEV算法将各类传感器信息统一映射至世界坐标系中，实现了在不同类型传感器数据的互补。此举不仅推动了感知融合从后融合阶段推进至前融合阶段的转变，也为端到端方案奠定了坚实的基础。随后，基于BEV算法发展起来的占据栅格（Occupancy Grid）算法，进一步增强了对动态与静态障碍物的检测能力，从而提升了自动驾驶汽车的安全避障功能。端到端自动驾驶方案是在BEV算法基础上，通过神经网络将轨迹预测、栅格地图预测、行为规划等环节叠加，用大数据监督学习取代了传统复杂的人工规则设计，从而简化了自动驾驶系统的开发流程，并提升了迭代效率。

BEV技术代表着继深度学习之后，自动驾驶领域又一项重大技术突破。它有效地克服了多传感器数据变化和异构性带来的挑战，促进了融合感知算法的发展。从理论基础来看，BEV与传统感知算法在输入端并无二致，均采用多通道传感器信息，但 BEV 的独特之处在于它能够直接生成适用于三维空间规划和控制的输出。BEV技术以二维数据为基础，提供了一种俯瞰视角，与SLAM技术相得益彰，为自动驾驶技术的进步和实际应用开辟了新的道路。

端到端方案将 BEV 算法的优势进一步放大，将轨迹预测、栅格地图预测、行为规划等环节叠加，通过神经网络将感知、决策和控制过程整合，用大数据监督学习取代传统的人工规则设计，从而简化开发流程，提升迭代效率。更接近人类驾驶员的驾驶风格，更容易实现更自然的驾驶行为。

端到端：智能驾驶的主流趋势

端到端技术如同为自动驾驶汽车打造了一个“大脑”，使其能够像人类一样，自主地学习和思考，并做出更加灵活的驾驶决策。

目前大多数L4级无人驾驶系统仍依赖于“算法+规则”的执行模式，通过地图、摄像头、激光雷达等多种传感器和算法的冗余配置来确保安全。但这种模式在处理复杂多变的交通环境时显得力不从心，难以解决所有长尾问题。因此，无人驾驶技术仍需不断优化和完善，而“端到端”模型的出现或许将为这一领域带来新的突破，加速技术成熟度的提升，从而解决当前存在的问题。“算法+规则”与端到端技术的融合将成为主流趋势。

端到端，就像价格战一样，成为车企“内卷”的又一个方向。

在2023年下半年，各大汽车制造商纷纷采纳以BEV和Transformer技术为核心的策略，致力于实施以“轻地图、重感知”为特点的城市级自动驾驶导航系统（NOA）的落地计划。然而，随着2024年特斯拉FSD V12版本的推出，标志着端到端方案在实际应用中取得了突破。市场趋势转向了更为重视感知能力的端到端解决方案，这标志着智能驾驶技术发展的下一阶段。

FSD Beta V12号称是迄今为止首个完全由人工智能实现的端到端自动驾驶系统。该系统从识别道路、行人等概念到决策过程，均未涉及传统编程，亦无程序员编写任何代码。整个过程完全依赖于神经网络的自主思考。相较于V11版本的30万行代码，FSD Beta V12的C++代码缩减至仅2000行。该系统通过向神经网络提供视频资料，使其不断学习和优化参数，从而通过分析数十亿帧人类驾驶的视频资料，自学掌握了驾驶技能。

随着新机遇的出现，国内企业积极拥抱变革，引领“端到端”自动驾驶技术的上车浪潮。

小鹏汽车于2024年5月20日宣布其“端到端”大模型由神经网络XNet、规控大模型XPlaner及大语言模型XBrain三大核心部分构成，并宣称“未来 10 年是智能驾驶的 10 年，完全自动驾驶和全无人驾驶时代即将到来，而率先实现端到端大模型上车的小鹏汽车，将于 2025 年在中国实现类 L4 级智驾体验。”。据官方声明，智能驾驶能力提升两倍。从现有的架构升级至端到端后，传感器输入的数据能够直接转化为车辆的控制动作，端到端的训练也从图片升级至视频。在系统层面，此举能够减少车辆在某些场景下的决策迟疑。

在2024年北京车展上，元戎启行推出的新一代量产的高阶智驾平台DeepRoute IO，宣称搭载了端到端模型，成为目前已知的行业内首个将端到端技术应用于高阶智能驾驶汽车量产的公司。在导航地图所覆盖的区域内，DeepRoute IO平台能够实现对交通信号灯、施工区域、缓慢行驶或临时停车等场景的及时、精确和稳定地识别，从而确保在城市环境中实现从一点到另一点的智能驾驶，在导航地图覆盖区域内，能够实现安全、顺畅的智能驾驶。

理想汽车董事长兼首席执行官李想在 2024 中国汽车重庆论坛上，提出了自动驾驶技术路线的新构想：“端到端”＋VLM（视觉语言模型）＋生成式验证系统，确实是一套非常有前瞻性的技术架构，这一技术路线被视为未来物理世界机器人技术的核心框架。截至目前，理想汽车尚未公开发布具体的“端到端”自动驾驶技术细节。虽然理想汽车的自动驾驶系统（理想AD Max）具备一些功能，例如高速NOA、城市NOA、记忆泊车等，但其是否完全采用端到端技术，以及具体的技术细节，都尚未得到官方的明确确认。

未来展望

端到端作为一种技术路径，能够得到车企客户和消费者的关注，其原因在于该技术能够显著提升用户体验。端到端技术能够显著增强系统的安全性，对于自动驾驶中那些难以用语言描述的复杂场景，端到端技术在实际应用中展现了出色的应对能力。此外，端到端系统使得驾驶行为更加贴近人类，更类似于人类驾驶员的风格，这有助于自动驾驶系统与用户之间建立信任关系。

那些跑通端到端大模型的车企，无疑抢先站上了“风口”，但端到端真正量产还有很长的路要走。目前，数据稀缺是困扰高级别自动驾驶落地，尤其是影响端到端效果的重要课题。有专家分析认为国内自动驾驶公司的模块化端到端方案上车量产时间可能会在2025年。

许多企业将主要目标定位于L2+级自动驾驶的商业化实施，暂缓了L4级自动驾驶的直接实现。今年伊始，多家汽车制造商开始了城市级导航辅助驾驶（NOA）的“速度竞赛”，竞相推广以“极致性价比”为卖点的高级智能驾驶解决方案。

在这一进程中，无论是“端到端”的解决方案，还是基于BEV+Transformer模型的技术，都在为自动驾驶的发展提供支持；同时，日益丰富的车辆行驶数据也在不断促进自动驾驶人工智能技术的日趋成熟。

免责声明：

凡本公众号注明“来源：XXX（非智车科技）”的作品，均转载自其它媒体，转载目的在于传递和分享更多信息，并不代表本平台赞同其观点和对其真实性负责，版权归原作者所有，如有侵权请联系我们删除。

原文标题 : 智驾行业BEV+Transformer到端到端“追热词”为夺技术终局优势？