云+AI治标不治本，产业需要“一云多芯”的AI原生云

2024-04-18 10:25

过去一年的云计算市场，冷热交织。价格战、“下云潮”，以及越来越单向度的内卷等因素下，云计算遭遇全球IT疲软，而AIGC领域却是另一番景象。

规模化的云厂商均将AI作为拉动业务的马车，只是诸多尝试还停步在布局AI基础设施与云产品的智能化之上。这种路径尽管对自身业务流程的帮助不小，但在向外输出方面却非常匮乏，这客观造成了产业智能化进程局限于点与线，无法推进到面。此外，大模型的出现将人类知识压缩，云上开发的管理对象也悄然生变。

AI时代用云与云上AI开发需要一个崭新的动能，好比正在逐步替代传统内燃机列车的高铁一般，虽当下的铁路网络中仍有不少普快徐徐慢行，但它们已不再是人们便捷出行的首选。

云+AI是跑在旧铁轨的绿皮车，而AI云则是一条全新的高铁线路。

要AI云，而非云+AI

“传统的云计算系统依然重要，但不再是主角，我们需要一个全新的操作系统，对新的计算平台，也就是智能计算做好抽象和封装，重新定义人机交互，为开发者提供更简单、更流畅的开发体验。”百度集团执行副总裁、百度智能云事业群总裁沈抖近期表示。

过去一年，大模型不断演进，已开始深度重构人机交互。例如，随着NLP的成熟，通过自然语言处理编程不再是无法落地的事情。事实上，由于应用场景、技术发展、语言竞争等因素，编程早已陷入“巴别塔魔咒”之中，单常见的计算机编程语言便有C语言、C++、Java、Python、Go等等。这导致编程不得不面向过程与对象，而无法正视需求。

当编程过程变为开发者表达愿望的过程时，整个操作系统的迭代便是题中之义。例如底层硬件，过去以CPU的算力为主，主要依赖低延迟、高复杂性运算，应用于算数与逻辑运算。而诞生于图形渲染的GPU则依赖于高吞吐量、低复杂性运算，长于处理大规模数据集。

此外，大模型的出现将人类知识压缩，操作系统管理的对象也悄然发生了改变。

AI大模型从最初的框架构建，逐步走到落地阶段。然而，随着AI大模型深入到千行百业中，市场开始意识到通用大模型虽然功能强大，但却难以满足个性化需求，导致服务商成为“高科技施工队”，而用户遇到问题处于两眼一抹黑的极端情况。

“上云容易下云难”，过去几年，部分行业在上云与下云之间反复横跳。

南方某医疗机构技术中心负责人此前提到，因为一把手都意识到上云是一种趋势，在一次会后，便拍上云。他们先在业务量不大的分院将影像归档和通信系统上云，等到成本、应用、维护等一系列验证有效后再复刻到总部。然而，当时的云上系统多次出现变慢，也曾受宕机拖累。

“我们排查不出问题，找云服务厂商、影像归档和通信系统厂商、检查本地系统，而且还要在院里协调各部门，简直自找麻烦。”最终，这家医疗机构决定下云，花钱将数据迁移回来，回到此前“膈应”的老系统。

各行各业面临的共性问题，如今似乎看到了答案。

4月16日，Create2024百度AI开发者大会期间，百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布了新一代智能计算操作系统——万源。

万源主要由Kernel（内核）、Shell（外壳）、Toolkit（工具）三层构成。并且第一次增加了硬件和软件以外的资源，也就是被大模型压缩的世界知识。通过对AI原生时代的智能计算平台进行抽象与封装设计，为用户屏蔽掉云原生系统与异构算力的复杂性，提升AI原生应用开发效率与体验。

这意味着，模型与AI原生开发的操作、算力、语言等门槛的进一步下放。更关键的是，百度凭此“桥接”不同开发深度的生态以及其中的不同角色，一个需求驱动的动态耦合的大系统就此形成。

“一云多芯”发起算力革命

每个时代都有其对应的底层载体作支撑，工业革命的蒸汽机、发动机或是信息时代的CPU均是如此。因循此逻辑，AIGC开启的全面智能化同样需要必须一个核心载体作为支撑，这便是上文提到的智能计算系统。

值得注意的是，智能计算并非既往计算技术的替代或是简单整合。相反，它是一种计算形式，根据任务要求系统地、全面地优化现有的计算方法和资源来解决实际问题。

要知道，算力早在在过去一年多内便被公认为是制约AIGC商业化与进一步发展的卡点，即使中国算力总规模位居全球第二，算力规模近5年更是年均增速近30％，算力卡脖子的焦虑依旧蔓延于行业上空——英伟达GPU一“芯”难求，而向开发者提供GPU托管服务的“算力黄牛”CoreWeave却在短短四年内估值增长至560亿元。

为了弥合算力供需之间的沟壑，也让算力更好用，万源为智能计算打出的“银弹”是百舸·AI异构计算平台。

在万源的内核层，在算力资源管理方面，百度百舸·AI异构计算平台针对大模型训练、推理等任务，对智算集群的设计、调度、容错等环节进行了专项优化。目前，百舸能够实现万卡集群上的模型有效训练时长占比超过98.8%，线性加速比、带宽有效性分别高达95%，算力效能业界领先。

要知道，即使是在国内顶尖的大模型厂商的视域内，模型有效训练时长占比达到90%的智算集群，大多都还局限于千卡集群。此外，百舸更关键的突破在于“一云多芯”在模型训练场景中的优异表现，称得上是从根本上缓解算力焦虑。

目前，百舸能够兼容昆仑芯、昇腾、海光DCU、英伟达、英特尔等国内外主流AI芯片，支持用户以最小代价完成算力适配。

过去，智算集群中的多个模型训练任务往往是单一厂商芯片服务于单一任务，不论是不同厂商芯片算力切分、芯片间通信效率或是根本的模型训练效率问题，都使得算力焦虑在在硬件差异之下被无限放大。

不过，在百舸的智能调度下，不同厂商芯片在单一任务混合训练已经成为现实，且百卡规模性能损失不超过3%，千卡规模性能损失不超过5%。百度方面表示，百舸平台的应用能最大程度上屏蔽硬件之间差异，帮助用户摆脱单一芯片的依赖，实现更优成本，打造更具弹性的供应链体系。

面对业内领先的重大突破，百度内部狂喜的同时也有些无奈。“以这么小的性能损耗完成混合多种芯片的单任务训练，业界基本没有厂商能做到，甚至我们的一些用户都不敢相信这是真的”。

当硬件差异在计算调度层面被尽可能抹平后，模型训练的成本与使用门槛也将随之降低，甚至直击算力需求与供给的错配也未尝不可。在硬件设施未有根本性变化的情况下，百度的底层技术打响了智能算力革命的发令枪。

授人以渔，重塑开发生态

借由对智能的管理能力，万源得以成为百度“桥接”算力效能与应用创新的桥梁，Kernel（内核）、Shell（外壳）、ToolKit（工具）三层高效互联起来，并形成了端到端的效能优化闭环。

内核层除了百舸·AI异构计算平台之外，还包含不同规格文心模型和第三方模型，外壳层是解决模型的管理、调度与二次开发ModelBuilder，而工具层则是具体应用的开发平台即AgentBuilder、AppBuilder。

行业视域下，大多模型服务商均在2024年前后推出了触达C端的开发工具，面向C端用户的封装应用、面向开发者的AI原生开发工具以及企业侧的精细定制化MaaS不一而足。百度根据基础设施、模型和AI原生应用构建三种不同开发深度而设计的分层于业内并非鲜见。

但难能可贵的是，百度通过万源，更进一步地将相互隔离的小体系整合成为一个大的体系。闭环之内，用户、开发者与企业侧三种角色都能共享生态内的计算资源与模型能力来进行高效开发。

用户或开发者可以通过自然语言的形式，以极少的计算资源进行有针对性的智能体等AI原生应用开发。例如，百度CEO李彦宏在大会上演示的“新加坡旅游局”智能体，只需在直接生成的基础智能体之上添加知识库内容，即可在数分钟内打造一个经验丰富的专属“背包客”。

正如沈抖所言，“随着大模型技术的不断演进，通过自然语言进行编程正在成为现实。编程将不再面向过程或者面向对象，而是面向需求”。百度以万源为基底，向业界提供了一个达到“编辑器”级别的开发工具与分发平台，带动AI原生应用进入下一阶段。

端云协同的飞轮

一个开发生态的初步完善仅是开启下一个想象空间的第一步，我们需要寻找的还有展现开发价值的载体。

对于开启智能手机时代的“iPhone时刻”而言，第一个展现巨大价值的载体是以《愤怒的小鸟》为代表的移动游戏；于AIGC而言，AI原生开发侧的价值落地在于端侧与端云协同。

仅需粗略扫视而今的手机行业，足见智能手机+AI已然成为各大手机厂商的核心战略。IDC预计2024年全球新一代 AI 手机的出货量将超过1.7亿部，约占智能手机整体出货量的15%，Counterpoint预计2027年出货量达到5.22亿部，渗透率达到40%。

另一方面，AI的能力触达同样需要一个距离用户最近的载体，无论是个人数据的安全读取还是进一步对人类行为、指令等进行分析、梳理，手机都无疑是当下的绝佳选择。

事实上，百度早在本次大会前便锚定了万源系统的价值实现标的。2024年1月10日，在荣耀MagicOS 8.0发布会及开发者大会上，荣耀终端有限公司CEO赵明宣布了“百模生态计划”，并与百度集团执行副总裁、百度智能云事业群总裁沈抖共同宣布，百度智能云成为荣耀大模型生态战略合作伙伴。

早在2017年11月，荣耀便发布了搭载AI应用与麒麟970处理器的荣耀view10，在彼时尚未成型的AI手机赛道初露峥嵘，近期更是掏出100亿真金白银与2000余项相关专利，宣告其发力端侧AI的坚定决心。更重要的是，荣耀还是智能手机赛道的头部玩家，据IDC数据，去年第四季度荣耀以16.8%份额占比，排名安卓阵营第一。

以此前披露的合作细节来看，有别于行业普遍的拍照、实时通话翻译、智能搜索等简单升级，两者是通过MagicOS来展开端云协同的范式创新——由端侧的荣耀魔法大模型负责理解用户意图，在后台将用户的简单提示转化为更专业的提示，再由云上的文心大模型提供知识问答、生活建议等专业服务。

例如日常助理需求中的“帮我安排日程表”或“帮我设定运动规划”，魔法大模型会分析用户的出行、健康等使用数据，生成初步提示词，以此调度文心大模型来生成足够全面的规划。在此过程中，魔法大模型将通过端侧防护网，滤掉敏感信息并确保个人隐私不上云，来解决用户对个人数据的隐忧。

然而这仅是AI在这个端云协同范式下的初步应用，更进一步的是依据用户自行上传的端侧数据而形成的个人知识库，以极短的链路提高劳动生产率并延伸脑力的可触达空间。

在安全性、可解释性、易用性等综合指标早已成为AI军备竞赛关键的当下，打开大模型的黑箱从而触达公众认知，无疑是大模型进入“创新扩散”下一周期的胜负手。开发者视角下的黑箱在于算法和训练过程，对于用户而言，不可见的黑箱则是模型能力的易用性与普适性。

面对不同角色的“开箱”需求，客制化产品不断涌现。然而唯有百度率先向底层进军，通过智能计算能力大幅降低开发门槛，将相对隔离的不同开发与反馈体系融为一体。体系的率先建立往往意味着商业壁垒，尤其是对于to B赛道而言。

AI与云的深度融合，端云协同的深度耦合下，我们亦看到了李彦宏在内部讲话中坚持闭源路线的底气所在。“抢滩”智能计算的百度再次在AI军备竞赛中保持了身位的领先。

原文标题 : 云+AI治标不治本，产业需要“一云多芯”的AI原生云