订阅
纠错
加入自媒体

DeepSeek式创新无法计划,但对“下一代模型”该有准备

2025-02-13 11:32
数字力场
关注

 文 | 佘宗明 

作家大卫·弗罗斯特曾说过:想要成功,反而不要以成功为目标,只需要做你喜欢和相信的事情,成功就会自然而然地到来。

DeepSeek的火爆出圈,俨然成了对《为什么伟大不能被计划》中引用的这句话的诠释。

身为AI布道者的李彦宏,则跟它打了个共鸣的响指。

2月11日,在第12届世界政府峰会(WGS 2025)上,被阿联酋AI部长奥马尔·苏丹·奥拉马问到如何看待DeepSeek的崛起后,李彦宏就回答道:创新是无法计划的,你无法知道创新何时何地会出现,你所能做的就是营造一个有利于创新的环境。

创新无法被计划,但创新不能没准备。一如巴斯德所说:“在观察的领域里,机会只青睐有准备的头脑。”

DeepSeek在Scaling Law的大路旁开辟出“小力出奇迹”的分岔来,也是“有准备”的回报。幻方量化在GPU储备上的先知先觉,就是“有准备”的直观注解。

“有准备”的同义词是“肯投入”。李彦宏在峰会上就表示,尽管技术进步、成本降低,但仍需持续投入AI基础设施,以确保处于技术创新的最前沿。“我们仍需对芯片、数据中心和云基础设施持续投入,以打造下一代模型。”CNBC的最新报道也显示,百度将于今年发布新版本大模型“文心5.0”。

在DeepSeek让那些对中美AI实力差距倍感灰心之人重燃信心的背景下,李彦宏说的“下一代模型”不无所指:AI角力终究是长跑赛,只有面向次世代技术持续投入,才能跑得更远。 

01 

李彦宏跟DeepSeek“同框”,当然不是偶然。“中国”“AI”等关键词,串联起了二者。

作为这届世界政府峰会主论坛首位对谈嘉宾,李彦宏“AI先生”的声名在外。被《时代》周刊评为“Foremost Futurist”的他,是《时代》周刊首次评选的全球AI百大人物榜单中唯一的中国企业家。

这么看,他成为阿联酋AI部长的对谈嘉宾,也就难言奇怪了——此次峰会上,阿联酋AI部长只主持了两场对谈,嘉宾分别是李彦宏跟谷歌CEO桑达尔·皮查伊,去年则是黄仁勋。

作为当下全球科技圈的当红炸子鸡,DeepSeek的热度延伸至世界性高端峰会上,也很正常——这本就是AI发展的标志性事件。

中国AI“代言人”就中国AI“神秘力量”发表观点,自然极具看点。

在技术大爆炸到来的今天,务实派总是会因时而变地迭代自身认知。可以看到,李彦宏在峰会上对DeepSeek发表的诸多看法,如创新无法被计划,还有关于大模型训练、AI应用的观点,都彰显了认知视野的开放性。

认同的背面是理解。从推动AI技术进步的角度讲,李彦宏跟DeepSeek创始人梁文锋本是同路人。

“卷技术是美国大模型的天命,卷价格是中国大模型的宿命”,是许多人(包括我)此前对于中美大模型对比的直接观感。

但DeepSeek无疑刷新了不少人的认知:它卷价格,更卷技术。凭着多头潜在注意力(MLA)和群组相对策略优化(GRPO)技术,DeepSeek实现了对硅谷算力能效比的代际碾压。

抛开频域遮蔽效应看会发现,DeepSeek技术突破的背后是中国大模型技术的整体进步:百度研发的“理解-检索-生成”协同优化的检索增强技术(RAG)强过OpenAI的,豆包的端到端对话能力不逊于OpenAI版“Her”,可灵的视频生成质量不输Sora……即为印证。

就拿百度结合搜索技术积累形成的模型特色RAG来说,依靠RAG带来的中文深度理解、多模态检索、垂直领域定制化及实时数据整合能力等优势,文心一言在咨询机构沙利文的《2024年中国大模型能力评测》中拿下了五大评测维度的四项第一。

随之而来的,是文心大模型调用量快速增长:截止去年11月,其日调用量已超15亿,相比一年前大幅增长30倍,成了中国大模型落地应用爆发的佐证。

到头来,从文心一言到DeepSeek-R1,都奠定了外界对中国大模型技术能力的基础认知。

02 

去年7月,在率先打响国产大模型价格战第一枪后,梁文锋在接受媒体专访时曾解释,“我们认为,AI和API服务应该是人人都能负担得起、随时可用的。”

与之相呼应的是,DeepSeek惊艳四座后,OpenAI CEO山姆·奥特曼、微软CEO纳德拉和亚马逊CEO安迪·贾西都不约而同地谈到,AI成本下降是趋势。

此次峰会上,李彦宏同样谈到了这点。他认为,“创新的本质是成本下降与生产力提升。”根据摩尔定律,每十八个月,性能就会翻倍而价格减半。如今大模型推理成本每年降低90%以上。

前不久,在接入DeepSeek模型后,百度智能云立马宣布了打折——千帆平台上的DeepSeek-R1仅为官方刊例价的5折,DeepSeek-V3为官方刊例价的3折,并提供限时免费服务,便是回响。

成本下降的后面是技术带动:推理引擎性能优化层面,针对DeepSeek模型MLA结构的计算进行极致性能优化;推理服务工程架构创新层面,做了严格的推/拉模式性能对比、设计了请求失败的续推机制、实现了主流的KV-Cache复用技术……是百度云智能将AI成本打下来的重要支撑。

结果就是,DeepSeek模型上线首日,已有超1.5万家客户通过百度千帆平台进行模型调用。

降本是最好的“刺激”。依托技术赋能,推动自有与纳管主流大模型降低调用成本,已成千帆平台的“基操”。过去一年,文心旗舰大模型降价幅度超过90%、主力模型全面免费,就累计帮助用户精调了3.3万个大模型,开发出逾77万个企业级应用。

很大程度上,在推动AI成本下降上,李彦宏跟梁文锋也是殊途同归:如果说,DeepSeek让全世界看到了中国AI花小钱办大事的破题能力,那百度点亮首个国产万卡集群,就是中国AI从算力基建层面寻求成本突破的另一种解法。

有专业人士提到,由于训练效率与数据利用效率差距,中国的模型整体资源消耗大概是全球顶尖模型的四倍。

而DeepSeek的框架创新,百度的AI基础设施完善,正是将效率提上去、成本降下来的两种思路。

2024年9月,百度升级发布百舸AI异构计算平台4.0,就是着力为企业提供“多、快、稳、省”的AI基础设施。该平台迄今已具备成熟的10万卡集群部署和管理能力,能将两种芯片混合训练大模型的效率折损控制在5%以内,达到业界最领先的水平。

百度近期成功点亮昆仑芯三代万卡集群,又放大了其降本效应与提效价值:万卡集群可通过模型优化、并行策略、有效训练率提升、动态资源分配等手段智能调度任务,将训练、微调、推理任务混合部署,最大化提升集群综合利用率,降低单位算力成本,满足AI原生应用快速迭代需求,实现训练成本指数级下降。

“创新的本质是成本下降与生产力提升”,百度和DeepSeek们降低成本,自然能撬动更多创新。

花旗银行的研报说,百度、DeepSeek等中国模型展现出的高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,就是前瞻预判。

 03 

提供“多、快、稳、省”的AI基础设施,是百度AI全栈布局之下的能力体现。

“百度是全球少有的在AI上实现全栈布局的公司”,是《时代》周刊将百度纳入“2024年全球100大最具影响力企业”榜单时给出的评语。

何为全栈布局?简单来说就是,大模型发展所需的AI基础设施、框架、云服务、AI生态反哺模型能力等条件,它都有。从芯片层的昆仑芯、框架层的百度飞桨到模型层与应用层的落子,百度的“六边形战士”形态已若隐若现。

全栈布局,不能少了场景落实、应用搭建等拼块,也必然体现在应用层的先行一步上。

AI产业发展,不是建空中楼阁,应用层跑通了,基础设施投入才可持续。移动互联网时代,从应用层到基础设施的倒三角型利益分配,催生了数量众多的超级应用和明星独角兽,支撑了移动生态的长久繁荣,就是最好的证明。

可AI时代的“倒三角”尚未成型,AI企业给英伟达们“打工”仍是常见图景。强如微软谷歌,AI基础设施投资中约一半的钱也要用来买卡。

就此看,李彦宏的那段话很有针对性:过去几年,我们对各种技术进步和突破感到非常兴奋。但如果我们看技术栈,它就像一个金字塔,最赚钱的是硅层面,即GPU和其他类型的AI芯片;然后在其上面的是云基础设施,由超大规模云服务提供商提供;再往上是语言模型,最上层是应用层。应用层虽然位于最顶端,但应用层目前还没有赚到太多钱。

AI产业可持续发展,推动AI成本下降的确重要,帮助应用层跑通则更为关键,这样才能形成正循环。李彦宏在峰会上就说:我们确实需要关注应用层的价值创造。如果你作为基础设施层投入了数千亿美元,却无法开发出能带来十倍以上回报的应用,那么这是不可持续的。

该怎么加速大模型落地应用的提点扩面?峰会上有个细节颇堪玩味,也为此提供了参照:李彦宏谈到Robotaxi比人开车安全十倍,萝卜快跑出险率仅为人类驾驶员的1/14,阿联酋AI部长也表示也许明年峰会可以探索用萝卜快跑提供交通服务。

萝卜快跑是百度推动AI规模化应用的重要抓手。2024年发布了全球首个支持L4级无人驾驶的自动驾驶大模型Apollo ADFM的萝卜快跑,自动驾驶订单量击败谷歌Waymo位居全球第一,入选《全球自动驾驶十大里程碑》及MIT2025十大突破性进展,就表明了中国AI在应用上的巨大未来想象空间。

在大模型应用场景早已从“Chat”扩围到各个领域的时下,萝卜快跑只是大模型应用场景丰富性的注脚:大模型To C侧最先实现商业化的标杆性应用百度文库,以4000万付费用户紧逼微软的Copilot,百度智能云2024年在中标项目数、行业覆盖数、央国企中标项目数三个维度里均为第一……就擘画出了大模型规模化应用途径的多元。

DeepSeek爆红后,有些人又陷入了将研发与应用二元对立的误区。但事实上,规模化应用的反哺,恰是DeepSeek们取得更多技术突破的动能。 

04

 需要看到的是,无论是技术研发,还是落地应用,都需要“有准备”——DeepSeek跟百度都推动了AI技术进步、成本下降,但这不意味着,就该因此降低对AI的投入。

亚马逊CEO安迪·贾西就说:(在DeepSeek的带动下)AI 的成本在降低,但这并不意味着企业会减少对技术的投入。相反,降低的成本将使企业能够重新考虑那些因预算限制而搁置的创新项目,从而加大整体的技术支出。

就在近日,微软、亚马逊、谷歌和Meta四巨头表示,在去年创纪录的支出之后,他们将在2025年进一步加大投资,预计在AI技术和数据中心建设上总共投入3200亿美元。相较之下,四巨头2024年的总资本支出为2300亿美元。

其中动作最猛的,正是亚马逊——它准备将支出增至1000亿美元以上。

李彦宏说“仍需对芯片、数据中心和云基础设施持续投入,以打造下一代模型”,DeepSeek追求持续进化,显然也是着眼于提升中国AI竞争力的应然之举。

伊瓦尔·埃克朗在《最佳可能的世界:数学与命运》中说:世界不分因果链,不是线性地安排事件……每个事件就像树干,把网状的根伸向过去,把树冠托向未来。

持续投入,就是将AI技术突破和应用拓圈的根扎得更深,最终将AI时代红利的树冠托得更高。而这,需要技术理想主义的坚持,需要务实的准备。

4个月前,在百度世界大会上,针对“硅谷预言家”安德森多年前的那个著名论断“软件吞噬世界”,李彦宏表示,这个世界不应该被吞噬,而应该被创造。

某种意义上讲,他和其他的AI从业者们都是在“创造”——他们处在同一侧,都在以探索下一代技术为支点,创造“最佳可能的世界”。

创新不能被计划,但他们都在为创新做准备。

       原文标题 : DeepSeek式创新无法计划,但对“下一代模型”该有准备

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号