“蔚小理华”谁才是世界第二？自动驾驶端到端的烧钱战局

2024-08-13 09:33

Xauto报告

关注

/// 自动驾驶端到端，开启烧钱竞赛。

作者：鹿白编辑：肖莹

自去年8月特斯拉发布FSD Beta V12引入端到端概念之后，端到端在国内智驾圈儿就火了起来。众多车企和智驾公司纷纷开始转向端到端技术的研发和量产工作。

其中，“蔚小理华”在端到端技术的研发和量产上，都在争抢特斯拉第一之后的第二席位。

4月，采用全新端到端架构的的华为ADS 3.0亮相，并于8月率先量产至享界S9；

5月，小鹏发布国内首个量产上车的端到端大模型；

7月，理想、蔚来先后发布基于端到端的技术架构；同时，小鹏汽车宣布将向全球用户全量推送AI天玑系统XOS 5.2.0版本。

在各家发布技术架构的同时，也伴随着“国内首个量产上车”；“行业首个双系统量产方案”；“国内首个端到端一体化模型”；“业内首个应用端到端技术的AEB”等定语名词。

对于愈发“内卷”的汽车行业而言，谁都想要挤进智驾“第一梯队”。可以看到，现阶段端到端技术正成为国内智驾系统发展的主流技术趋势，以“蔚小理华”为代表的企业，都在加码端到端，并力图将其搬上车。

谁能成为率先量产端到端自动驾驶技术的第二名？各家端到端技术架构又有何异同点？以及未来端到端技术将如何发展？我们今天就来简单聊一聊。

全面争战端到端

在主流的自动驾驶方案中，以规则算法为基础，整个系统架构划分为感知、决策和执行三大模块。

而所谓的端到端，就是把三个模块划归为一个，从传感器数据输入开始，中间只要一步，到控制信号输出，实现完整闭环。

简言之，就是要建立一个完整的学习系统，直接从原始数据中不断学习，并生成所需的输出，不需要人为将任务分解成多个中间步骤。

特斯拉提出端到端技术架构之后，这在自动驾驶行业引发了强烈反响，不少车企和自动驾驶公司开始研发端到端技术，国内的智驾路线也开始“转向”。

可以说，一夕之间，国内智驾技术开始全面转向端到端。

在这其中，以蔚小理为代表的造车新势力走在最前面，甚至在组织架构上都进行了相应的调整。

先来看蔚来，其对智驾研发部架构进行了系统调整。

此前，蔚来智能驾驶研发部分为感知、规控和集成等部分。调整后，感知和规控团队合并为大模型团队，集成团队重组为交付团队。

在此次调整之后，蔚来决定将放弃业界沿用多年的“感知-决策-规控”的技术路线，明确地表示探索用端到端大模型实现高阶智能驾驶。

同时，蔚来还单独设立了一个大模型部，专门负责端到端的模型研发。

小鹏汽车则是以其智驾“灵魂人物”吴新宙离职为契机，智驾团队的中高层更新了一批新鲜血液。同时，小鹏汽车也在智驾部门下成立了AI部门，专门推进端到端等技术。

今年3月，通用旗下自动驾驶Cruise公司前资深工程师Xianming Liu已经加入小鹏汽车，担任小鹏AI团队负责人，接替刘兰个川（Patrick）的职位。

此外，还有一些Cruise工程师和Waymo（谷歌旗下自动驾驶公司）工程师也已经加入小鹏汽车。

理想汽车也在去年底为端到端模型单独成立了一个团队。

“我们对智驾核心的思路就是端到端+大模型，就是系统1+系统2的理念，我们认为这个方式是更接近于人类驾驶的更有前途的智能驾驶方案。”

理想汽车智能驾驶负责人郎咸朋近期阐述了其智驾最新发展理念。

理想汽车CEO李想也曾在2024重庆论坛上公开表示，今年第三季度，理想将向测试用户推送端到端+VLM（视觉语言模型）的智驾方案。

可以看到，“蔚小理”智驾团队调整背后，是其在智驾领域正朝着端到端大模型进发，即用AI神经网络，来重构传统的智驾感知、决策、规划等技术模块。

除了蔚小理之外，作为深度影响汽车行业的华为，也正在全面布局端到端技术。

今年4月华为发布了乾崑ADS3.0，已首发搭载在享界S9上面。据悉，华为乾崑 ADS 3.0 版本具备融合端到端能力，在激光雷达辅助下将会对智驾能力带来巨大提升。

事实上，对于当前高度“内卷”的汽车行业而言，抢先实现端到端模型落地量产，加速城市NOA“开城进度”，已经各大车企争夺市场份额、提升品牌竞争力的关键策略。

端到端仍是模块化设计

虽然各家都在布局端到端，但从目前各家发布的技术架构来看，各家布局端到端技术架构的方式以及对未来技术架构体系的思考，却并不完全一样。

小鹏汽车的端到端大模型主要包含三个部分：

神经网络XNet：通过聚合动态XNet、静态XNet和行业首个量产纯视觉2K占用网络，能够让自动驾驶系统如同裸眼3D。规控大模型XPlanner：就像人类的小脑，通过海量数据时刻训练，使得驾驶策略不断向拟人进化，拥有“老司机般的脚法”，使得前后顿挫减少50%、违停卡死减少40%、安全接管减少60%，进一步提高舒适性和安全性。大语言模型XBrain：可以使得自动驾驶系统拥有人类大脑般的理解学习能力，大幅提升处理复杂甚至未知场景的泛化处理能力，对真实物理世界的宏观逻辑的推理能力亦是如此。

按照小鹏汽车的说法，在XBrain的加持下，自动驾驶系统能够认识待转区、潮汐车道、特殊车道、路牌文字，秒懂各种令行禁止、快慢缓急的行为指令，进而做出兼顾安全、性能的拟人驾驶决策。

理想汽车的端到端则是采用了“行业首个双系统量产方案”，简单来说，理想汽车自动驾驶路线核心思路是用一颗Orin X芯片用于端到端，也就是快系统，一颗Orin X用于VLM，也就是慢系统。

系统1，即快系统，由端到端实现，具备高效、快速响应能力，能够应对驾驶车辆时95%的常规场景。

系统2，即慢系统，由VLM （Visual Language Model，视觉语言模型）来实现，其接收传感器输入后，经过逻辑思考，输出决策信息给到系统1，占日常驾驶的约5%，目前达22亿参数量。

系统3，世界模型，除了端到端和VLM模型外，理想汽车还讲了未来的智驾技术思路，即世界模型。该模型结合重建和生成两种技术路径，将真实数据通过3DGS（3D高斯溅射）技术进行重建，并使用生成模型补充新视角。两者结合所构建的场景为自动驾驶系统能力的学习和测试创造了更优秀的虚拟环境，使系统具备了高效闭环的迭代能力，确保系统的安全可靠。

蔚来的端到端，则是以智能驾驶世界模型NWM（NIO World Model）为主导的架构体系。

据介绍，NWM，是一个多元自回归生成式的具身驾驶模型，可全量理解数据、具有长时序推演和决策能力，能在100毫秒内推演出216种可能发生的场景，寻找到最优决策。

作为生成式模型，NWM可将3秒钟的驾驶视频作为Prompt（提示词），生成长达120秒的视频。NWM还具备与生俱来的闭环仿真测试能力，已在复杂交互场景中全面测试并验证性能。

蔚来智能驾驶技术架构NADArch2.0将在算法层引入世界模型的端到端架构，直接从原始传感器数据生成驾驶决策，减少传统方案中的信息损耗。同时，预测能力也将更强，让智能驾驶体验更安全、更拟人。

华为的乾崑ADS 3.0，据目前已经公布的信息显示，其号称“端到端架构体验更类人”。

这一架构，感知环节去掉BEV，只保留一张GOD网络，决策、规划合为一张PDP网络，从而实现类人化的决策和规划，行驶轨迹更类人，通行效率更高，复杂路口通过率>96%。

也就是说，乾崑ADS 3.0方案，采用GOD网络负责感知，PDP网络负责预决策规划。

如果从量产上车的角度，目前小鹏汽车走在前列，其端到端技术架构已经量产上车，并开启了全球全量推送。华为则紧跟其后，理想和蔚来暂时还没有明确上车时间。

而从技术架构体系上来说，各家基本还都处于模块化设计，也被称为“分段式端到端”。对此，有业内人士认为，分段式端到端从感知模型，到规控模型，中间会出现信息丢失。

事实上，在端到端之前，分模块主要由人工手写规则来定义，每个模块都会存在大量信息损失。

现在，分段式端到端，感知、决策规划各用一个模型，当感知传到决策规划时，信息量已非常少，用于做决策规划模型的体量比感知模型小几倍，因此无法称作大模型。

业内有观点认为，分段式大概率会向“一张网”发展。只不过，那是一个浩大的工程，需要特斯拉那般的大手笔。

从分段式到一张网，需要很长时间，要看企业有没有足够的钱。目前，端到端自动驾驶在小范围都能跑，之后能不能做，得看实际效果。要几十万用户用起来，那是另一个故事。

当然，即便在宣传上最为激进的特斯拉，其端到端技术方案也并非指向一个从感知到控制的“大一统”模型，而是仍然具有感知与规划模块之分，通过将规划模块从专家系统、蒙特卡罗树等传统技术向深度学习模型的升级，以及使用联合损失函数同时训练两大模块，构成了其所谓的“端到端”智驾。

真正的端到端尚需时间

由于大模型技术的不成熟，以及智能驾驶的安全要求，短期内端到端技术或将难以真正实现。

一方面，从行业现状来看，相比于特斯拉号称“输入图像、输出控制”的端到端方案相比，国内的端到端思路暂时只能做到从感知端到预测决策端，最终的控制执行模块，依然由工程师的手写规则来兜底。

长城汽车智能平台开发中心高级总监姜海鹏表示，现在几乎每一个算法公司或者主机厂都在研究端到端，但已经按照端到端架构去做的不超过三家。

另一方面，想要真正训练端到端大模型，这背后离不开海量高质量数据的支持，以及强大的算力支持。

数据方面，去年马斯克在财报会上谈到过数据对自动驾驶模型的重要性，“训练了100万个视频Case，勉强够用；200万个，稍好一些；300万个，就会感到Wow；到1000万个，就变得难以置信了。”

而数据的收集需要大量的时间和渠道，数据类型除了驾驶数据外还包括各种不同的道路、天气和交通情况等场景数据，特别是，实际驾驶中周围方位的信息收集难以保证。

在《马斯克传》中，马斯克也亲口解释过，特斯拉全球200万台车每天约可收集1600亿帧的驾驶视频用于模型训练。但是，管理如此庞大的数据并非易事，因为绝大多数视频都是无用的。

真正宝贵的是那些车流量异常大、或是有众多行人做出各式各样的行为、路况极其复杂的画面，但是这个占比甚至连1%都不到。而为了提取这1%画面，需要庞大人力、算力、储存甚至是电力等巨额成本。

算力层面，门槛更高，背后则需要庞大的资金支撑。

在2024年Q1财报会议上，特斯拉透露如今其已经拥有35000块H100的计算资源，而2024年底这一数字将达到85000块。

这意味着，要达到跟目前FSD V12同样的水平，大概率35000块H100和数十亿美金的基础设施资本开销是必要前提。再往下，门槛还在进一步拔高。

事实上，目前国内车企也正在追赶，比如在算力上，理想表示公司有5000张A100、A800这样等同的训练卡数量，是小鹏的两倍。

在数据上，小鹏则表示基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试，小鹏端到端大模型能够做到“两天迭代一次”。

虽然各家都在积极努力在算力和数据等层面，加大投入做端到端技术研发，但从目前行业发展现状来看，短期内还不能够实现真正的端到端。

但基于端到端技术体系，来不断进行整个智能驾驶系统技术的迭代升级，从而为用户带来更好的智能驾驶体验效果，则成为可能。

原文标题 : “蔚小理华”谁才是世界第二？自动驾驶端到端的烧钱战局

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

技术文库

行业报告