“端到端”风口已至？

2024-10-09 10:48

当前，“端到端”技术已经获得了国内外众多主机厂和供应商的青睐，预计在2025年会迎来更大爆发。有理由相信，随着技术的进步，“端到端”将在不久的将来重塑智驾格局。

从概念兴起到深入布局，“端到端”几乎已经成为了车企近阶段在自动驾驶领域的重点工作。8月初，有媒体报道称，小鹏汽车近期对自动驾驶部门进行了相应的组织架构调整，新设AI模型开发、AI应用开发、AI效能开发三大板块职能，旨在加速AI能力进化和组织AI化转型。无独有偶，6月蔚来也被曝重组了智驾团队，将感知和规控团队合并为大模型团队，而理想汽车也在7月成立了“端到端自动驾驶”实体组织，规模约200人。“

‘端到端’采用神经网络作为信息传递的桥梁，通过数据驱动实现全局优化，理论上性能上限更高，可以更好地处理复杂场景，避免了模块化系统中各部分独立优化可能带来的整体性能损失，并具备利用数据闭环进行快速更新的能力，获得了国内外众多主机厂和供应商的青睐，有望推动智能驾驶向更高级别的发展。”清华汽研院智能网联中心技术总监孙辉在接受采访时表示，2024年已经有一些企业宣称在测试或量产“端到端”方案，预计在2025年会迎来更大的爆发。随着技术的进步，相信“端到端”将在不久的将来重塑智驾格局。

忽如一夜春风来，家家都上“端到端”

有的人因为相信才看见，例如特斯拉，而有的人则因为看见了才相信，例如近期公开“端到端”自动驾驶方案上车规划的一众车企。

其实“端到端”并不是一个新词，早在2016年，英伟达就提出采用单个神经网络来实现“端到端”的自动驾驶，但只完成了小规模的demo验证。直到随着Transformer网络架构和车端算力（逐步可支持0.1B~1B级参数量网络运行）的提升，One Model的“端到端”方案才又重新回到人们的视野中。

特斯拉成为了这一时期“第一个吃螃蟹的人”。2023年8月，特斯拉在公布FSD V12版本时正式宣布引入了“端到端”技术。今年3月，特斯拉开始在北美地区大范围推送FSD V12。这套智驾系统的优秀表现，让从业者和用户都迅速感受到了智能化技术所带来的驾乘体验提升，因此也在一定程度上推动了“端到端”自动驾驶技术路线在短期内形成了大范围的共识。

同样作为“端到端”技术的忠实拥护者，小鹏积极跟进，先是在今年1月30日提出未来将实现“端到端”模型全面上车，随后在5月20日宣布开始向用户推送基于“端到端”大模型的智能驾驶和智能座舱系统。到了7月30日，小鹏汽车官宣将向全球用户全量推送AI天玑系统XOS 5.2.0版本，同时提出在2024年四季度可以实现“门到门”的智能驾驶，即居住小区停车场到单位园区停车场的高级别辅助驾驶。

其余企业也纷纷行动起来。4月，华为推出了采用“端到端”架构的ADS 3.0，并已搭载于6月上市的享界S9；在北京车展上，元戎启行展示了基于DeepRoute IO的“端到端”解决方案，商汤绝影则推出了面向量产的“端到端”自动驾驶解决方案“UniAD”；地平线在5月发布了SuperDrive全场景智能驾驶解决方案，使用了动态、静态、Occupancy三网合一的感知“端到端”架构；7月5日，理想宣布，向全量理想AD Max用户推送“全国都能开”的无图NOA并发布基于“端到端”模型、VLM视觉语言模型和世界模型的全新自动驾驶技术架构；7月27日，蔚来正式发布智能驾驶技术架构，并表示该技术架构在算法层升级引入了自研的蔚来世界模型的“端到端”架构。

原教旨定义的“端到端”仍在路上

有意思的是，尽管“端到端”已经被公认为自动驾驶技术发展的大趋势，但业界对其定义仍存有争议，一位国内一线智驾车企工程师甚至在接受媒体采访时这样说道：“目前为止，我没有听到任何一家做到了（原教旨定义下的）‘端到端’。没有任何一家，包括特斯拉。”

对此，孙辉提出，“端到端”是一种通用的技术类别，根据不同应用具有不同的含义。目前行业内普遍认可的“端到端”技术主要分为两类，一类是感知规划“端到端”，以多传感器数据为输入，行驶轨迹规划为输出，该路线继承自BEV、OCC，有良好的产业量产基础和较低的运行算力需求，是最主要的路线。第二类则是基于多模态大模型（VLM、MLM）的“端到端”，利用大语言模型的知识底座，通过微调的方式适应自动驾驶场景理解和决策。孙辉指出，这类大模型由于参数量过大的原因，无法用于实时推理，但对corner case的理解能力更强，决策更拟人化，可作为有效补充。

根据前不久发布的《端到端自动驾驶行业研究报告》（以下简称《报告》)，在目前国内“端到端”技术路线的主要“玩家”中，商汤绝影和小鹏汽车跑得比较靠前。其中，小鹏的“端到端”大模型有三个组成部分，包括神经网络XNet、规控大模型XPlanner和大语言模型XBrain；而商汤绝影的“端到端UniAD”属于“模块化端到端”类型，与决策规划模型化的技术架构（即“两段式端到端网络”）相比，不需要对感知数据进行抽象和逐级传递，实现了感知决策一体化和系统的联合优化。

不过，诚如上述车企工程师所说，几乎目前市面上所有的“端到端”技术都留有“兜底规则”，也就是说，系统中的规控大部分仍是混合架构。“目前看来，‘兜底’是非常有必要的事情。”孙辉告诉记者，在“端到端”模型没有达到足够可靠的时候，可能需要基于规则的方法和“端到端”模型同时工作。一方面，这在资源分配上是可行的，因为传统方法多依赖CPU资源，而端到端依赖GPU/NPU资源；另一方面，智驾研发企业并不适合在没有成熟基于规则的方法之前，跳过该环节直接开发“端到端”方案，这样会降低系统的可靠性。他认为，“兜底规则”或基于规则的安全保障，将在很长的时间内都是一个必备的模块，随着技术的发展，其触发几率会持续降低。

上车制约因素：可靠性、适应性和实时性

尽管像孙辉所说，今年就已经有一些企业宣称在测试或量产“端到端”方案，预计在2025年会迎来更大的爆发。但对于现在的智能驾驶汽车企业而言，要实现“端到端”的量产上车仍需面临可靠性、适应性和实时性等因素的制约。

在孙辉看来，企业会根据所依托的控制器硬件选择合理的模型规模，其主要挑战在于当网络规模受限时，如何训练出可靠性高、泛化能力好的模型。借鉴其他领域的经验，如采用大规模数据训练（如SAM）、教师模型蒸馏、人工反馈的强化学习（RLHF）等，还需要行业内更多的探索尝试。

在这一过程中，数据和算力就成为了摆在车企面前的两大难题。理想汽车总裁、总工程师马东辉在今年第一季度财报电话会上直言，特斯拉的“端到端”大模型需要大量的数据和训练算力，“这不是所有车企都有能力和资源做到的”。

另一大挑战是“端到端”如何处理corner case。孙辉指出，在升级为大模型之前，边缘场景对“端到端”算法来说依然是挑战，因为边缘场景在数据中呈现出极度稀疏的状态，很难被有效学习。目前行业里的一种解决方法是单独添加标签，采用类似Focal Loss的方式提高其贡献，另一种则是采用合成数据来人为制造边缘场景用于学习。

“特斯拉在2021年和2022年年底的AI Day上分别公布了BEV和Ocuupancy Network的技术架构，而国内车企开始OTA基于BEV/Occupancy Network的功能普遍在2023-2024年，与特斯拉的研发进度差大概在1.5~2年。”《报告》认为，参考前述追赶进度，国内自动驾驶公司的模块化“端到端”方案上车量产时间可能会在2025年。