奔驰也用端到端，冲进智驾第一梯队？

2024-11-06 09:28

2023年之前，梅赛德斯-奔驰下放的辅助驾驶技术，能做到不止自适应巡航、车道居中保持等常规功能；2023年之后，全新E级长轴距版用上了高速领航辅助系统，打通这项功能奔驰用了12个月；到了2024年11月初，无图L2++智驾系统问世，明年4月份会随着CLA纯电量产落地，而这次用了14个月。不出意外，差不多在半年后，奔驰会是第一个用上端到端智驾的豪华品牌，也是继小鹏、极越和华为之后，国内第四个采用摄像头+多传感器视觉方案的智驾方案，我们更感兴趣的是，奔驰用上端到端之后，效果究竟怎么样？和目前比较主流的华为乾崑智驾ADS 3.0、理想和小米的E2E+VLM和小鹏AI鹰眼方案比起来，大概是什么水平？

接管率比小米低，但舒适性细节仍需优化？

奔驰的无图L2++全场景高阶智能驾驶，底层逻辑是把BEV+transformer架构整合成了一个端到端AI大模型，主要变化是具备深度学习的功能，当然了，由于端到端是把以往感知端、决策端和执行端这三个独立的黑盒子融合在了一起，数据传输的速度肯定也变得更快了，话句话说，端到端这套系统需要大量数据分析学习，从而不断优化决策，理论上讲，就是跑的越多，系统就越接近人类驾驶员的驾驶习惯和风格。

这套系统的核心，是去掉了激光雷达，也不依赖高精地图，走的是摄像头+多传感器的技术方案，那该怎么理解奔驰的这套智驾系统呢？其实，端到端的思路到现在基本已经非常明确了，所谓的多传感器（含激光雷达）还是纯视觉技术方案，只是车企在数据感知端的硬件选择不同，无论是华为、理想、小鹏还是小米，他们的自动驾驶功能下一步要实现的阶段，就是做到类似特斯拉FSD的One Model形态，也就是用一个模型完成所有的感知、决策和执行，所以说白了端到端就是用大量的实测数据，去教会大模型如何安全驾驶。

那么，从BEV+transformer架构升级成端到端之后，奔驰的这套L2++系统好用吗？从今年8月初国内首次开启路测，到现在已经过去了差不多3个月，基本的城市NOA功能都可以实现，比如起步就能用，主辅路切换、进出环岛、U型调头、识别红绿灯、避让行人和自行车、无保护转弯、旁车博弈等等，基本覆盖了华为乾崑智驾ADS 3.0的智驾功能。

开启城市NOA之后，整套系统在城市道路中的驾驶风格，并没有刻意选择保守或者激进，比如在窄路面对同向行驶的非机动车，或者临停占道的机动车，系统的策略是进行合理避让，在安全距离内基本没有多余的避让动作，几乎是贴着障碍物通过，而小米SU7前不久在OTA1.4.0之后，同向避让的逻辑层面就存在停车等待或者主动降级问题，相比之下奔驰的这套系统明显是要更激进一些，而在面对错位路口，尤其是由于施工造成地面标线混乱的情况下，系统的决策就会变得偏保守，以礼让作为优先考虑，但基本的通行效率还是有一定的保证。

值得一提的是，奔驰这次的测试车全程几乎没有几次接管的情况，之前雷军本人在北京亲自测试小米SU7城市NOA时，将近50公里出现了4次接管，而奔驰这边唯独出现的一次接管，是因为社会车辆突然加速加塞抢道，出于安全考虑驾驶员主动接管干预，多打半圈方向避开了被剐蹭风险，这类相对的极限场景其实考验了两件事，一个是系统会不会和驾驶员抢方向盘，另一个是超过安全距离系统是否会降级，从实际情况来看，当人工介入且接管力度较大时，整套系统的控车力度明显是有所减弱的，人驾和智驾之间的过渡相对丝滑。

但是，这套系统要说细节上拟人、舒适，其实也并非全部工况都能实现，比如当识别到路口由绿灯转为黄灯闪烁时，系统会综合前后车距、到路口的距离、加减速的乘坐舒适性等因素，优先选择不闯黄灯的策略，避免因路口抢行造成的交通事故隐患，不过从实际场景来看，这里会出现一个特殊的情况，会导致车辆并不是每次都能温柔刹停，比如当绿灯即将结束，前车紧急制动，而系统按照设定，路口会综合跟车距离、信号灯指令作出判断，所以在还未出现黄灯前车就制动的情况下，系统同样会大脚制动，此时明显影响到驾乘舒适性。

同样，在处理鬼探头的情况时，系统的执行逻辑不是减速绕行，而是以紧急制动为主，通过实测片段就可以清楚看到，制动下前悬弹簧行程被大量压缩，刹车点头情况明显，如此一来，有关奔驰的这套端到端智驾效果，基本可以出一波结论了，接管率比现阶段的小米更低，市区复杂路口通行效率有保证，但是在舒适性细节仍有一些优化的空间，当然了，这个问题解决起来并不难，毕竟端到端的数据迭代速度已经可以实现周更级，所以关于这套智驾系统的舒适性的表现，我们可以期待一下后续版本的表现。

摆脱高精地图后，水平能排智驾第一梯队？

奔驰用的这套端到端智驾系统，其实就是Momenta提供的技术方案，但是研发调教都是奔驰自己团队完成的，从硬件水平来看，除了没有用到激光雷达之外，芯片用到了英伟达orin Drive，单颗算力254TOPS，小米汽车和理想汽车用的也是这款芯片，不过，在外部感知硬件的性能上，可能会产生些区别，比如，小鹏在AI鹰眼智驾搭载了Lofic摄像头，可以识别大光比场景，小米则通过BEV变焦技术，可以更好的掌握探测精度，不过结合前面提到的整体效果来看，奔驰的端到端智驾表现，基本上都能实现华为乾崑智驾ADS 3.0的大多数功能，所以从某种程度上讲，这套系统的水平几乎是在智驾第一梯队的。

目前比较主流的几个智驾代表性方案，是华为的乾崑智驾ADS 3.0、小米汽车和理想汽车的E2E+VLM，小鹏的XNGP在全面切换到AI纯视觉路线之后，还需要大量的数据训练，所以参考价值比较高的，还是华为和理想采用的这两类技术，那么，奔驰端到端和他们比，有多少差距呢？

先来简单复盘一下这两条技术方案，首先，华为在ADS前两个版本中，一直是把BEV网络单独拿出的，而进化到3.0版本之后，BEV网络被融到了GOD网络之中，同时把负责决策规划的PDP网络也加了进去，形成了GOD一张大网的概念，这个逻辑其实就是和前面提到的特斯拉one model形态类似，只不过在硬件感知端，需要一颗192线束的激光雷达做实时扫图，这也是这套系统的立足根本，4D毫米波雷达通过强回波来构建三维立体数据，所以在数据层面，这两套硬件基本不会出现错判或漏判，小体积和不规则障碍物也能准确捕捉到，PDP网络算是针对无数未知case场景的兜底安全机制，总之，这套系统基本是非常靠近未来L3级的技术了。

其次，小米和理想用的E2E+VLM，本质上还是需要BEV给障碍物作数据立体坐标，大模型经过训练给出相应的处理决策，VLM主要是用来分析复杂场景，这也可以把E2E和VLM看作成一套快系统和一套慢系统，和小米汽车稍有不同的是，理想还用上一个叫云端世界的模型，这其实就是一套复杂记录并分析黑盒子场景的数据库，经过无数条未知场景的构建分析后，再把自主训练后的数据传给大模型，从某种程度上讲，这个和华为的PDP网络作用有些类似，都是兜底安全的机制。

对比下来，奔驰的端到端智驾，就没有前面提到的PDP和云端世界模型了，兜底安全机制的反而是传统的规则算法，这个该怎么理解？举个最简单的例子，在关于智能机器人的电影中，机器人经过大量数据分析和自我学习，甚至都进化到了具备像人类的“意识形态”，但是最底层的规则算法，是一串“不能伤害人类”的代码，如此一来，奔驰的这套智驾系统，在遇到从未见过的未知复杂场景时，很有可能就会出现BEV+transformer+占用网络的早期智驾效果，也就是出于安全的第一性考虑，主动降级、通行效率变低这类问题都可能会出现，解决的办法只有达到一定的数据量和训练学习，所以针对未知的复杂场景，华为、理想这类有云端数据库的智驾方案，迭代能力和周期可能会更强更快一些。

作者丨张卫东

原文标题 : 奔驰也用端到端，冲进智驾第一梯队？