自驾技术突破的第一刀，砍向自驾人

2024-06-24 16:41

在 2024 年 6 月 8 日的中国汽车重庆论坛上，理想汽车 CEO 李想发表演讲时表示：“最近团队致力于自动驾驶技术的突破，他们曾思考这样一个问题：人类开车为什么不涉及学习 corner case？如果我们不能解决这个问题，所有自动驾驶团队每天干的活都是靠人工去调试各种各样的 corner case，而且放的人越多，corner case 越多，和真正的自动驾驶就越遥远。”他接着说：“当人工智能技术在不断的发展的时候，我们会发现，其实人类开车的方式，不是过去那么多年里我们用的自动驾驶研发的一个方式。这是一个根本的不同。因为人开车没那么辛苦，没那么累，不需要养几千人的团队去搞 corner case。”

联想到最近理想汽车大规模裁员的动作，此番表态似乎是李想在为裁员做出回应。过去，我和业内朋友们讨论自动驾驶技术对社会发展的价值时，往往会有朋友提出：“届时大量出租车、网约车司机失业，带来的社会影响怎么办？”谁也没想到，最先被自动驾驶技术优化掉的，并不是司机们，反而是为自动驾驶技术的发展掉光一茬又一茬头发的算法工程师们，堪称 2024 年最佳地狱笑话了。李想所说的“自动驾驶技术的突破”，就是最近非常火热的端到端自动驾驶技术。那么，什么是“端到端自动驾驶”？为什么端到端的到来，让李想有这个底气去大规模裁掉自动驾驶团队人员呢？本文将从以下几个方面展开论述，看完这篇，你就理解为什么端到端让李想认为做自驾，不再需要那么多人了。

传统的模块化自动驾驶方案，以及其局限性

端到端是什么，是怎么实现的

端到端对自驾行业的影响端到端自动驾驶之前，我们是怎么做的要想理解什么是端到端自动驾驶，我们首先要思考，什么是“非端到端的自动驾驶”？非端到端的自动驾驶，我们这里称为传统的自动驾驶技术，一般称作模块化自动驾驶技术。也就是大家所熟知的，分为感知、定位、规划、控制几大模块。感知模块负责接收传感器的信号，分析出传感器探测到的物体是什么。感知模块把这个信息传递给规划模块，规划模块做出判断和决策后，将指令传递给控制模块，再由控制模块去执行。自驾圈过去几年的技术演进，是无图，还是重图，是纯视觉，还是雷达全家桶，其实都没有脱离这个模块化自动驾驶技术。

比如说，纯视觉好还是上激光雷达更好？技术上的分歧点在于，纯视觉够不够感知到所有物体？需不需要使用激光雷达去辅助感知？过去几年，我们自动驾驶相关技术的发展，无论是激光雷达，还是所谓的 4D 毫米波雷达，还是双目摄像头，其实都是在加强这个感知模块。硬件的感知能力加强了，但机器本身，他只知道那里有东西，并不能识别那个东西，需要人为去给机器定义。通俗地解释，就是我们给机器去设定好一个规则，去告诉机器，有这些特征参数的，是 A 物体，有那些特征参数的，是 B 物体。

这就是感知算法工程师的工作。在端到端到来之前，我们加强机器感知能力的方法，都是通过打补丁的方式，不断地去增加规则。比如特斯拉，放弃了激光雷达，仅靠纯视觉去识别物体。带来的问题是，只有标注过的、见过的物体，机器能够识别。一棵树，长在路边，横在路中间，竖在路中间，我们人类都可以一眼认出来那是一棵树。但如果只标注过长在路边的树，对于横在路中间的树，机器可能就识别不出来了。比如，2020 年台湾的一名特斯拉车主黄先生启用 Autopilot 时，就撞上了一辆侧翻的白色卡车。对机器来说，行驶的卡车、停着的卡车，都能识别出来，但是侧翻的卡车，以前没人给标注过啊。

算法工程师当然可以很快打上补丁，告诉机器这是侧翻的卡车，下次遇到了要提前避让。但是，下次再遇到四脚朝天的卡车呢？或者侧翻的轿车、泥头车、灵车？算法工程师们，不可能把所有的 corner case 都穷举完，总有更加奇葩的案例会发生，总不可能每展现一次 corner case，就要消耗一名特斯拉车主吧？所以，特斯拉在 2022 年的 AI DAY 上，分享了一个重要的技术，occupancy network，被称作是下一代的感知范式。

这里通俗地解释一下 occupancy：把汽车周围的空间划分成许多小格子，每个格子都有自己的位置和标记。标记分为两种状态，被占用和空闲。如果一个格子是被占用的状态，那就意味着这个格子的空间是有物体的。随着汽车的移动，不断地通过传感器去更新这些格子的状态。这么一来，机器就可以建模任意形状的物体和任意形式的物体运动，不再依赖通过人工标注的方式去让机器学习。看起来，特斯拉的 occupancy network 已经完美解决了如何感知了，对不对？但是 occupancy 依然有局限性。

比如车前面飘过去一个塑料袋，或者一片落叶，人类驾驶员可以轻松判断做出无视的决策，但机器会把它识别成障碍物。那怎么办？还是打补丁，告诉机器，有这些特征的是塑料袋，是落叶，可以无视。这就又回到了上面的问题，自然界的规则是无穷无尽的，永远都会有还没考虑到的 corner case。上面说了这么多，还只是感知模块的问题。规划和决策模块，这里面的规则就更复杂了。传统自动驾驶技术下的规控算法，一般被称为 rule-based 算法。

我们通俗地去理解，就是 if A then B，else C。当然，规控算法本身是非常非常复杂的，不是简单的 if else 语句，这里只是方便非工程专业的读者理解。规控这里面的算法所遇到的 Corner Case，就更多更复杂了。我们的算法工程师去定义规控规则的时候，还是要基于我们设想的场景，去告诉机器，这个场景下要怎么做。比如通过识别车道线、识别交通标识，以及车道与车道之间的连接关系，告诉车辆此时应该直行、左转还是右转。那么问题来了，现实世界中，周边除了那些静止的环境要素，还有大量的动态环境要素。比如直行的时候，突然旁边有辆车切入。或者绿灯过路口的时候，突然有个外卖小哥闯红灯横穿过来。

简单通俗地去理解，就是每一个场景，都需要一个 if else 去告诉机器该怎么做。现在假设这么一个场景，路口有交警指挥交通，要求直行车辆全部右转。这对于人类驾驶员来说，是一个再普通不过的场景，哪怕一个新手司机也能立刻判断要怎么做。但自动驾驶汽车可能就不行了，因为规则告诉它，这是直行车道，且周围没有其他障碍物或者车辆干涉，此时应该直行。如果算法要解决这个问题，怎么办呢？首先要让机器能够识别交警。OK，我们给机器设定规则，穿天蓝色衣服站在路口比划手势的，是交警，识别交警的手势并做出对应的路径规划。首先光是实现这一步识别，就非常非常麻烦……然后，某一年，交警换制服了，改成绿色了。又或者，某个特殊场景下，交警没有穿制服，比如重大车祸现场，某个休假中的交警路过，临时指挥交通。

又或者，不是交警，而是穿黄色衣服的路政工人指挥车辆离开前方路段。那继续打补丁，告诉机器穿黄色衣服的人是路政，然后下次又遇到了美团外卖小哥，又得告诉机器如何区分路政人员和美团外卖。总而言之，规则是无穷无尽的，这里能拿出来举例的，可能都已经打上算法补丁了，还有更多更多的场景，可以非常非常奇葩，发生的概率非常低，没有实际发生之前，人已经没有办法提前设想出来了，自然也就没办法给机器设定规则。传统的自动驾驶技术，越是常见的场景，算法就训练的越成熟。

所以早些年，大家看到做自动驾驶的公司如雨后春笋一般，一茬接一茬的冒出来。每家初创公司都可以很快在一些简单场景下实现自动驾驶。融到钱以后，再去一点点研究 corner case，不断地打补丁。然而，通过这种打补丁的方式，收益率是越来越低的。越往后，就需要投入越多的人力，去发现并解决一个 corner case。这也是为什么最近几年，大家感觉大部分自驾公司似乎没什么技术上的明显突破，一直都在 L2+，L2+++，L2.9999。理论上来说，只要设定的规则足够多，能够把自然界 99.99999.....% 的场景都覆盖到，那么通过这种模块化的技术路线，自动驾驶也是可以实现的。

这种方式下，自然就需要非常庞大的研发团队。比如比亚迪就曾经公布过，4000 人的智驾团队，每个月的工资要发 10 亿。如此高昂且需要持续投入的成本，也就限制了自驾技术的发展。另外，模块化的自动驾驶，由于感知、规划、决策各个模块是单独开发和优化的，系统的集成就变得非常复杂。不同模块之间的信息传递存在误差累计，进而也会影响整体性能。最后，当出现问题时，快速定位问题原因并给出解决方案也是一个难题。做感知的认为是规控错了，做规控的认为是感知错误导致规控错了。

这几个问题比较技术，本篇就不展开来介绍了。端到端的自动驾驶是什么上面说了这么多，都是在解释传统自动驾驶发展中遇到的技术瓶颈。那么，端到端自动驾驶又是什么呢？与传统的分模块的思路不同，端到端自动驾驶以感知的传感器数据为输入，直接输出车辆的控制指令，中间过程是个黑盒，由神经网络来完成，人类不参与其中的规则定义。端到端的概念本身其实提出较早，但由于决策过程无法追溯，一直没有被用于工程实践。

大模型的出现以及快速发展，给端到端自动驾驶带来巨大转机。特斯拉发布的 FSD 12，则是率先将端到端自动驾驶率先工程落地。端到端和chat gpt这类语言大模型并不是一回事，但是，他们在技术层面上的应用原理是非常类似的。端到端自动驾驶和chat gpt都使用了深度学习技术，尤其是神经网络模型，来处理和生成数据。两者都使用了大模型，都依赖大量的数据来训练模型。端到端自动驾驶从大量的驾驶案例中学习驾车的操作规律，chat gpt则是从文本中学习人类的语言规律。

为了方便理解，这里，首先解释一下语言大模型的工作原理。在上世纪 50-60 年代，人工智能专家通过给机器定义语法规则，来实现让机器按照语法输出人类语言。这种方式跟传统模块化自动驾驶类似，本质上都是人类给机器定义规则，机器去执行规则。但是问题来了，人类输出语言，其实并不是完全按照语法规则，语法规则只是对人类输出的语言信息的规律总结。而机器本身并不能理解语言本身的含义。所以机器按照设定好的语法规则输出的语言，可以是语法完全正确但是没有任何意义，不承载任何信息的废话。比如著名的语言学家 Charmsky 举了一个例子：colorless green ideas sleep furiously，无色的绿色点子狂暴地睡觉。

这句话完全符合语法规则，但没有任何意义，正常人类的对话不可能输出这样的句子。另外，人类本身也不会完全按照语法规则去输出语言。比如每年网络上层出不穷的热梗：YYDS，绝绝子，尊嘟假嘟，姬霓太美……这些词原本没有任何意义，但是人们给它赋予了含义，懂这个梗的一看就能明白什么意思。语言的目的是传递信息，虽然有些梗很烂很恶俗，但确实传递了信息。上面两个案例就说明，语法规则并不能完全定义人类语言。如果用定义语法规则的方式去告诉机器怎么输出语言，那机器可能会输出完全符合语法但毫无意义的语言，而且每次出现新的语法规则，就要给机器更新一个新的语法规则，这就太麻烦了。这和传统自动驾驶算法去不断加规则所遇到的瓶颈，是不是很像？那么 GPT 又是怎么做的呢？

GPT，全称为“Generative Pre-trained Transformer”，是一种基于 Transformer 架构的预训练语言模型。它本质上是一种预测语言模型。我们把 GPT 想象成是一个超级过目不忘的学霸，GPT 本身并不能理解语言，它通过阅读互联网上无数的文本资料，包括小说、新闻、论坛帖子等，总结出了语言的规律，哪些词经常一起出现，句子怎么组织才自然。然后，GPT 预测文本中接下来可能出现的单词。比如你给它一个句子的前半部分，它就能猜测后面可能跟着哪个词。GPT 还能根据上下文理解词义。比如“苹果”这个词，在不同的上下文中可能指的是水果，也可能是指科技公司。更通俗一点去理解，可以类比我们的联想输入法。输入一个词，后面会联想出你可能想要输入的下一个词。这种联想输入法，其实就是一个最简单的语义模型了。

联想输入法只能根据前面的一个或两个词语去预测下一个词，而大模型预测下一个词的信息，不仅仅是局限于前面一两个词，而是之前所有的内容。大模型通过学习前面的词，预测下一个词，涉及词汇向量和运算。这，叫做统计语言模型。大模型通过阅读大量人类的语言文本，就能从中找出语言的规律。

比如：他非常喜欢你，只因你太____。大模型通过大量阅读总结的规律，首先学习到了，“太”这个副词往往会接形容词，所以大模型接话不会接“只因你太打篮球”，或者“你太唱跳 rap”，大模型通过语言规律的总结，知道这里应该接一个表达情绪的形容词。又通过总结规律发现，“喜欢”这个词是正面情绪，往往会接褒义的词，所以大模型也不会接“只因你太蠢”或“只因你太沮丧”。

最后，语言大模型大概率就会给出“只因你太美”。所以，通过大量的数据输入训练后的大模型，就可以根据前面的内容不断往后面接词。上面尽可能通俗简化地讲了语言大模型的工作原理。实际的语言模型当然远远比上面描述的要复杂得多。那么，这跟端到端自动驾驶又有什么关系呢？跟训练语言大模型类似，从传感器输入开始，信号给到神经网络。人类不在神经网络中定义规则，不去告诉它应该识别什么，应该怎么做。我们只是把这个场景下，人类的操作给它看。就像语言大模型总结出语言规律一样，AI 也能通过大量的素材，总结出，当某一些特定的传感器信号，或是像素群出现的时候，人类就会进行一定的操作。

语言大模型用的训练数据是人类的文本，而端到端自动驾驶需要的训练数据，则是大量人类开车的视频片段。这种训练方式，使得 AI 能够像人类一样思考。之前，特斯拉的FSD也是基于传统的模块自动驾驶方案，但是，特斯拉最新发布的FSD Beta v12 已经率先采用并落地了端到端自动驾驶。特斯拉在此前的FSD多个版本中，通过纯视觉感知方案，利用影子模式实时收集数据，已经积累了大量数据用于训练模型。据媒体报道，特斯拉训练用到上千万个视频片段。

马斯克在此前的试驾直播中表示，FSD Beta V12是有史以来第一个端到端AI自动驾驶系统（Full AI End-to-End），从头到尾都是通过AI实现。我们没有编程，没有程序员写一行代码来识别道路、行人等概念，全部交给了神经网络自己思考。V12的C++代码只有2000行，而V11有30万行。也就是说，从传统模块化自动驾驶转向端到端后，特斯拉的FSD所需要的代码，仅仅不到原来的1%！既然不需要那么多代码了，自然也就不需要那么多写代码的人了。这大概就是李想裁人的底气。端到端自动驾驶的未来展望说了这么多，现在回到标题。端到端，给自动驾驶行业带来了什么？首先，是对从业者的影响。因为不再需要给 AI 制定规则了，自然也就不再需要那么多算法工程师。

就像chat gpt的出现，让大量翻译人员失业一样，端到端的到来，也会取代大量基层算法工程师的职能。所以不仅仅是李想才有底气大规模裁研发人员，后续其他做自驾的 OEM 或者自驾 tier 1可能都会跟进。当然，这并不是所有的算法工程师就都要下岗了。因为训练的数据量还不足以支撑端到端自动驾驶的直接落地，短期内会有一个过渡期，即端到端实现自驾功能，但依然人为设定一套规则进行兜底。其次，是对产业链的影响。我认为，纯视觉与雷达之争可以休矣。纯视觉方案一定大于雷达方案。摄像头捕捉到的信息密度，是远远大于雷达的。雷达捕捉的信息强在精度。

设想这么一个场景，你开车在路上的时候，你的眼角余光看到路边停着的车辆后边冒出来一个脑袋在移动，有经验的司机可能就猜到这是有人准备过马路，只是身子被停在路边的车辆挡住了，然后司机就会选择减速观察。神经网络学习到了这个规律，它会发现每次路边静止的车辆附近出现移动的像素点时，人类司机就会做出一些减速操作。这类场景，只有纯视觉可以捕捉到全量的场景信息，并且让 AI 总结出，视频的最角落的几个像素信息也会影响人类操作，进而学习这个机制。而雷达就只能等这个人出现在车子面前，探测到实体后，做出刹车的动作。这就是自驾经典难题“鬼探头”。

但这并不是说以后自动驾驶就不需要雷达了。在性价比足够高的情况下，可以加几颗雷达去增加安全冗余，但端到端本身，并不需要雷达。所以，几十块钱的毫米波雷达，OEM 是不介意用几颗的。但至今仍要 2-3000 一颗的激光雷达，唯一出路就是继续卷价格，卷到价格低到 OEM 愿意接受它当个备胎为止。目前，端到端本身还有一些局限性，比如训练数据不足，在某些场景下，其表现还不如原来模块化自动驾驶。另外，可测试性，可解释性等问题也是业内人士争论的焦点。本文不再展开。

结语大模型的兴起改变了许多行业，也为沉寂多年的自动驾驶行业带来了新的可能。特斯拉的 FSD V12 的率先落地，也让大家更加坚信自动驾驶必将实现。那么，完全的自动驾驶是先有端到端实现？还是由模块化技术方案实现？还是由两者的结合呢？欢迎留言讨论。

*未经准许严禁转载和摘录-参考资料：

原文标题 : 自驾技术突破的第一刀，砍向自驾人