吴新宙到英伟达后的首秀，说了些什么？

2024-03-28 10:20

赛博汽车

关注

作者 | 黎澜

编辑 | 章涟漪

半年时间，英伟达汽车业务无论是商业化进程，还是技术成熟度，都有了不小进步，这是如何实现的？

近日，GTC 2024大会上，英伟达汽车事业部副总裁吴新宙发表了《加速向 AI 定义的汽车的转变》主题演讲，用时52分钟，从技术角度给予了解答。

这也是吴新宙入职英伟达后的首次正式对外演讲。

作为自动驾驶领域大拿，吴新宙曾在高通工作10余年，主导自动驾驶解决方案。2019年，在何小鹏的盛情邀请下，吴新宙加盟小鹏汽车，全面主导小鹏汽车的ADAS业务，主导实现了NGP、XNGP等项目落地。

同时拥有竞争对手高通，以及自身工程化最好样本小鹏汽车的高管背景，吴新宙可以说是最适合英伟达的人。

确实，正如黄仁勋所期待的，在吴新宙加盟后，英伟达汽车业务肉眼可见的更有起色。一方面，团队规模不断扩大，特别是自动驾驶中国团队不断扩充；另一方面，技术不断取得突破，截止目前，其已经帮助英伟达搭建了自动驾驶全栈自研部门，并且团队实现将AV1.0（AI Vehicle）升级至AV2.0。

此次大会上，吴新宙对外分享了入职英伟达220多天以来的故事，讲述了英伟达如何以更少的代码、更大规模的模型、更高的算力和更多的数据，实现以AI为中心的自动驾驶汽车 2.0时代到来。

以下是吴新宙演讲的主要内容。

01AV2.0的核心技术优势，在于“雷神”

吴新宙表示，首先，自动驾驶仍然是有商业前景的。

在新能源渗透率稳步提升的大前提下，根据其预测，2030财年L3级别自动驾驶市场仍将呈现显著上升趋势。

同时，随着生成式AI的发展，车载AI也有了长足的发展，经历了从规则、算法驱动型软件栈，到AI增强型软件栈再到端到端AI软件栈的过程。

而英伟达AV2.0的核心技术优势，在于拥有Drive Thor（雷神）芯片。在智能驾驶方面，Thor发挥的长处是“低精度运算”，这意味着可以输入模糊的、多模态的、不确定的数据，通过AI自动生成能力还原出有逻辑的远算方式。

相比于前代的Orin平台，Thor在LLAMA-7B的测试环境中能够实现高达9倍的性能提升。另外，除了黄仁勋高调官宣的Blackwell GPU提供卓越性能以外，处理器中的ARM Neoverse V3AE CPU也提供了强大的单线程性能，这对复杂场景进行快速决策尤为关键。在SPECrate®2017_int_base的基准测试中，Thor比Orin预计有2.3倍的性能提升。

相较于上一代Xaiver，Orin实现了七倍的算力提升，达到245TFLOPS ，而Thor则达到了惊人的2000 TSFLOPS浮点算力。

或许，Orin没有能够真正实现L5级别的Robotaxi，Thor能够完成。

硬件的提升必然需要软件配套设施一同进步。目前，吴新宙团队研发的AV2.0还可以解决上一代搭载Orin芯片的AV1.0存在的痛点。

原有的AV1.0需要大量数据训练，新一代车载软件利用仿真技术模拟各种驾驶场景，降低对真实数据的依赖。

根据吴新宙介绍，传统的自动驾驶系统只具备几秒钟的短期系统记忆，这让AV1.0的决策可能是缺乏连贯性的。AV2.0利用大语言模型（LLM）逻辑推理的能力，增强了系统决策的连贯性和上下文感知能力。

“英伟达自动驾驶团队目前还在致力于让AV系统更具‘可解释性’，那就是让自动驾驶不再‘黑箱’，开发出一套降低信息差，方便对外解释的算法。”在吴新宙看来，这对于消除大众对自动驾驶的疑虑至关重要。

02AV2.0技术的底层技术创新

活动上，吴新宙还展示了AV2.0技术的底层技术创新：基于VLM的基础模型（VLM Based Foundation Model，视觉语言模型），由此形成的PARA-Driving，搭建实时自动驾驶的并行化架构。

目前，端到端自动驾驶有两种技术路线。

一种是UniAD（Unified Autonomous Driving，自动驾驶通用算法框架），这个方案强调同时操控多个模态，使传感器搜集到的数据在训练过程中朝着“整体最优”的方向进行。

另一种则是更直接的VLM，实现过程和人类驾驶行为相似：以眼睛作为视觉输入信号，直接作用在方向盘和刹车油门踏板上。这种直接端到端变相地扩大了模型的搜索空间，需要用更多的数据、更大的模型、更强的算力才能防止在特定场景的过拟合，在驾驶体验中，多半是“莫名其妙的刹车”。

为了降低干扰，吴新宙团队对第二种方案进行了优化，将Transformer融合进自动驾驶的基础模型，形成PARA-Driving的终极答案。下图是此模型的功能布局。

吴新宙表示，PARA-drive将信息变成Tokens，再放进Transformer模型里分析，化整为零，处理起来更轻松。

据演示，相比于UniAD6 FPS的夜间运行速度，PARA-drive在夜间驾驶的实际应用场景中达到了26 FPS的高帧率，也就是说，夜视效果能达到UniAD的四倍。

当然，这并不意味着要全盘替换原有的系统软件栈。吴新宙指出，现在的技术还不足以让VLM为主的基础模型全量进入使用，初始阶段将处于"影子模式"（shadow mode），团队会通过与人类驾驶行为进行不断比较而微调。

随着时间的推移，现有的技术栈将逐渐被淘汰，但出于安全考虑，两种栈可能需要共存一段时间。

信息搜集处理步骤告一段落，接下来吴新宙开始介绍AV方案中能提供物理模拟引擎的部分。当然，这也是英伟达以游戏显卡起家的老本行了。仿真模拟（Simulation）的关键作用毋庸置疑，这是取代实车测试所需的巨大成本的关键一步。

良好模拟的关键属性包括像素保真度（适用于相机、雷达、超声波、激光雷达等），场景保真度和可扩展性，以及行为保真度。无传感器操作允许在计算上更具可扩展性。英伟达的AV仿真模拟可以在有或没有传感器信息的情况下操作，极大地降低了成本。AV模型模拟的工作流，让端到端模型与场景库和功能模块环环相扣。

总体而言，吴新宙团队开发的基础模型的功能如下。

通过云端和车端统一的基础模型，有三个实现场景，首先最直观的是车内助手（In-cabin Assistant），使用基础模型来提供车内助手服务，可能包括语音识别、自然语言处理和用户交互等功能。

自动标注（Auto-labeling），利用基础模型来自动标记训练数据，对于大量的自动驾驶数据来说，可以极大程度地降低成本、提高效率。

最后是安全评估（Safety Evaluation），确保自动驾驶系统的性能和决策符合安全标准。在自动驾驶的安全问题需要得到确认的共识下，吴新宙阐述了NVIDIA DRIVE安全平台在保障自动驾驶汽车的安全方面的全面举措。

03全球首个端到端AI安全平台

安全性，几乎是全球自动驾驶从业者的共识。英伟达自动驾驶DRIVE平台是全球汽车生产领域首个也是唯一一个端到端的智能安全平台。

目前，英伟达Drive平台有四大支柱，分别是开发过程、硬件、软件建设和底层架构。

英伟达在人力部署层面足见对安全的重视。据吴新宙介绍，有15000名工程师投入到安全部门的研发工作。

硬件安全机制经过21亿个晶体管的安全评估，吴新宙也提到了硬件退化效应的检测和ASIL D（Automotive Safety Integrity Level）系统性。

软件与架构是一个全栈功能安全的体系结构，共计500万行代码经过安全评估，还有德国技术监督协会认证的DRIVE OS和安全传感器以及端到端的认证。

底层架构层面，Drive平台提供安全保障的云服务和工具每日会进行200万次端到端集成测试，确保了安全的开发和测试以及大规模的项目周期管理。

04授人以鱼，不如授人以渔

另外，英伟达还专门召开了中文的专家技术解读论坛，解释了吴新宙发言的核心技术亮点、应用场景，以及自动驾驶方案的商业落地。

汽车数据中心业务总监陈晔还做了Q&A，针对的问题是英伟达对国内厂商的服务方式。

陈晔提到，基于中美自动驾驶应用场景的差异化，在美国本土英伟达往往给车企做的是NDAS封装一站式服务，意味着直接给到完整的自动驾驶解决方案；服务国内的新能源厂商的时候，英伟达更倾向于提供一套更适配的算法，或者干脆成为算法开发过程中的指导者。

还有人对算力所需的硬件配置较为好奇。随着对算力要求的提升，相应的“卡”的数量也会有一定提升。陈晔表示，在AV1.0时代，领先的客户需求大概是2000台，在AV2.0时代，就产生了一万台GPU的需求，这种量级的变化对有些车企来说是难以承受的。当然，这是以H100作为算力计算单位，当Blackwell成为主流GPU的时候，企业所需的硬件成本会有所下降。