小米 SU7 ，智驾方案为何不选华为路线

2025-01-06 11:41

作者|张霁欣

编辑|冒诗阳

汽车像素(ID:autopix)原创

几天前，小米 SU7 部分推送了最新的先锋版智能驾驶系统，全国都能开、车位到车位，能力超越很多头部新势力。小米的智驾能力，为什么可以快速迭代？我们今天来聊聊，这套很有争议的技术。

2023 年下半年开始，端到端智驾大模型，被公认是实现高阶智能驾驶的技术方向。

将海量真实，或仿真的驾驶数据搜集起来，输入给 AI 大模型进行训练。训练成熟以后，未来的 AI 将可以模仿老司机的驾驶方式，来帮助人类开车。

这套技术先是特斯拉在做，后来小鹏、理想、蔚来、小米，甚至比亚迪。可以说所有前沿车企，人手一个 AI 大模型。但随后，大家发现一个问题，没有人真正追上特斯拉，甚至在很多层面上，差距还越来越大了。

要解决大模型的问题，国内车企分成了两派，一个是华为、小鹏为代表的，继续加强训练。这需要非常大量、优质的训练数据。比如小鹏大模型的训练数据量，已经达到了 2000 万 clips。这是起步晚的小米所做不到的，它积累的数据量仅有 300 万。

如果硬要学小鹏，需要大量的车在路上收集数据，回传之后训练，最快也得一年才能追赶上。这个时间，对于小米来说，有点太久了。

于是小米、理想为代表，国内车企有了第二种方案。在智驾大模型的基础上，加上一个数据体量没那么大的 VLM 模型，作为辅助。

VLM 的全称，是视觉语言模型，可以把图像用文字描述出来，这就需要先理解图像的内容，现在的智驾大模型是通过大量训练，做出的肌肉记忆，优势是反应快，但它不能真的像人类一样，理解场景、思考推断，关键时候能变通。

VLM 就是帮忙解决这个问题的，比如这样一个场景。

现在的智驾大模型，可以准确识别出红框中的要素，并根据大数据提供的驾驶经验，快速做出决策，这个决策大部分时候都没问题，而且可能很老练，但并不意味着智驾大模型能够理解这个场景，知道这里在发生什么。比如行人、车辆、红绿灯之间可能的关系，未来会发生什么变化。

VLM 在这时，可以对场景进行解读，给到补充信息，它能够理解，这是个红灯场景，所以行人在穿过马路，而自己在左转道上，准备等绿灯左转。

简单来说，VLM 就是一个 “看图说话” 能力强的模型，可以辅助 “解读” 很多信息，比如判断哪一条是公交车道、潮汐车道等等。以上这些问题，如果仅靠智驾大模型，需要海量的数据来训练，才能做到接近 100% 的准确度。训练不够时，VLM 像是一个外挂的教练，坐在副驾上，辅助端到端大模型开车

既然这么好，为什么其他车企不用呢？

VLM 最大的问题，是延迟。这个模型要分析和理解场景，所以在车端算力受限时，需要比较长的时间。比如理想的 VLM ，从感知到出结果，大概需要一秒钟左右。要知道，车速在 80 km/h 的时候，一秒钟可以行驶 22 米，这个延迟，是不满足智能驾驶实时性需求的。

另一个问题，是训练的难度。虽然 VLM 模型所需要的数据量，不像智驾大模型那么大，但要求更刁钻，需要在每个训练数据中，都提供图像和文本的对应。这就只能通过人工，做视觉问答标注，过程复杂且耗时。最终的质量也难以保证，毕竟不同人，对于同一个场景的理解，会有偏差，写成文本，差异就更大了。

VLM 能短期内，弥补端到端大模型下限低的问题，给智驾大模型那 0.1% 的问题兜底。但长期来看，这种并列多个模型的路线，并不是智驾的最终局。

本文为汽车像素（autopix）原创内容

未经授权，请勿转载

原文标题 : 小米 SU7 ，智驾方案为何不选华为路线丨Pix视频

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

共0条评论，0人参与

登录登录即可访问所有OFweek服务

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻

技术文库

行业报告