这是一场鏖战,也是巨变的起点。靠怎样的机制与模式抢占世界人工智能高地?浙江杭州的“三剑客”也许具有样本解析价值。
文|徐鑫
编|任晓渔
中国的基础模型开源旋风已持续数月。
前几天,DeepSeek联合清华发布关于推理时Scaling的新研究论文,外界纷纷推测距离DeepSeek-R2发布或许近了。这家开年后以开源模型名声大震的创业公司有个外号——“真正的Open AI”。DeepSeek-V3和DeepSeek-R1两大模型在开源社区GitHub的Star数量发布不到2个月就超越了OpenAI的明星项目Whisper。
拥有如此大的影响力除了模型不俗的表现和更低的成本,还在于DeepSeek的开源姿态。它开源了最先进的模型,采取的MIT协议是应用许可最宽松的协议之一,详细公布了技术原理,并持续释放出计算、通信、存储到系统架构等各个层面的优化工具。
无独有偶,国内另一家开源巨头阿里云的口碑也已破圈。文生视频模型万相2.1(Wan2.1)在发布6天后Hugging Face及魔搭社区总下载量就超百万。同时,截至2月底,整个通义千问(Qwen)系列模型的下载量达到1.8亿,累计衍生模型总数9万个,超越海外开源大模型鼻祖Meta的Llama系列,成为全球第一大开源模型系列。阿里上个月还发布了QwQ-32B模型,本月据称还将发布今年上半年最重要的模型Qwen3。
此外国内的大模型公司阶跃星辰、MiniMax、智谱、百度等也接连发布开源成果发布。在人工智能最关键战场,中国正崛起为一支不可忽视的开源力量。
开源的动作不局限在产业界。在科学创新中,中国的新型研发机构也在积极响应由联合国教科文组织193 个国家一致通过《开放科学建议书》,包括数据共享在内,开源也是开放科学重要原则。
之江实验室去年开始在全球范围内邀请公测地学基础模型GeoGPT。GeoGPT在2023年初发起时就是一个开源项目,本月将正式面向全球科学界发布,并同步开源模型架构、训练模型的数据列表。未来还将开源包括数据标注技术报告、代码等更多成果,为全球AI4S领域的创新协作提供助力。
GeoGPT不仅为全球地学研究提供了文献解析、地质图识别及生成、学科知识图谱等强大研究工具。它开放资源的态度也极为彻底,更重要的是由此形成了科学基础模型的系统架构。
基础模型竞技场,正因中国模型开源迎来前所未有的信息透明度。更多元的角色有机会加入创新,获得发展权。一个以开源模型为基石的世界创新生态网有望加速形成,就像硅谷形容DeepSeek一样,这支开源力量可能也是一份中国“给世界的礼物”。
值得一提的是,浙江杭州在中国开源战略里展现出极强的存在感。新锐创业企业DeepSeek、科技龙头阿里云和承担国家科技使命的非营利性新型研究机构之江实验室,形成创新“三剑客”,以不同的机制全面呼应这一浪潮。
这是一场鏖战,也是巨变的起点。靠怎样的机制与模式抢占世界人工智能高地?中国在接下来的人工智能发展浪潮中如何持续创新?浙江杭州的“三剑客”也许具有样本解析价值。(欢迎加作者微信,进群交流,微信号moonfly713)
01
给世界的礼物
“这不是你们的战场。”
大模型浪潮的开启者,OpenAI的CEO山姆·奥特曼2023年6月7日,在环球巡演到达德里时,给印度人民发展人工智能的热情泼了一盆冷水。
有人问,“3名工程师有1000万美元,是否可以构建类似OpenAI创新?”山姆·奥特曼非常冷酷地劝退——“我们要告诉你,在训练基础模型方面与我们竞争,完全没有希望。你不应该尝试。”
山姆·奥特曼备受争议的发言现场视频截图。
这引发了轩然大波,随即OpenAI以回答被断章取义来安抚印度人的愤怒。他们解释称,山姆真正想说的是,“用1000万美元与OpenAI竞争是真的行不通。正确的问题是,初创公司应该做些什么以前做不了的事,给世界带来新东西。”
这一风波其实很好地概括了过去两年绝大多数时刻,人工智能全球发展格局和根植于其中的结构性冲突——大模型世界正呈现出硅谷闭源寡头主导的局面,天量资本投入拉高了参与门槛,世界上许多地区和领域无法参与这场创新。
斯坦福大学每年会发布AI Index追踪全球AI发展趋势,2024年报告提及的一系列趋势基本呼应了上述判断:大模型训练成本正以飞快的速度急剧攀升;AI在全球区域发展极度不平衡,美国、欧盟、中国之外,这份报告中看不到其他地域参与者的身影;学术界也渐渐在这场创新中落在后面。
山姆·奥特曼不知道,在他的断言发出的那个月底,一个“疯狂的”中国人公开宣告了对这种权力结构的挑战。
“后边可以把我们的训练结果大部分公开共享……而不是技术只掌握在一部分人和公司手中,形成垄断。”梁文锋在那个6月第一次接受媒体专访时说。
当时把这个宣言当回事的人很少。一方面,虽然中国在大模型领域加速追赶,世界当时并不认可和奖励来自中国的创新。2023年11月29日,顶着中国电商头号玩家加上中国最大云计算公司并且发布了通用模型等若干头衔的企业加起来市值,第一次比不上拼多多。人们还总用前一天去世的芒格老爷子的话调侃,“他们仍然是一个该死的零售商。”。
更何况,DeepSeek是中国大模型创新生态里的边缘角色,当时梁文锋说的很多话也让人心生疑窦。一家从量化基金脱胎出来的小创业团队,凭什么也要做AGI。靠着好奇心驱使去探索,它怎么活下去?
不要怪普通人辨别不出来DeepSeek的属性。理想主义者一腔热血但没有然后的故事太多了。一个在杭州猎头圈流传的段子是,猎头帮DeepSeek挖人经常收到一句,“谢谢,不考虑,这个赛道没有初创公司的机会。”
可以说,新一波人工智能发展浪潮里,世界都笼罩在一个阴影之下,OpenAI所代表的硅谷闭源模型领先和定义规则,机会不属于其他任何人。
从这个意义上,也许能更好理解DeepSeek开源并被世界认可的语境——一家在美国之外的企业,性能比肩一线闭源模型,成本却只是同行几十分之一,以最开放的态度,给了开发者常宽松的许可,在技术堆栈上有非常深度的优化,并且不吝于分享。它对全球的AI开放创新生态价值不言而喻。
就像Meta首席科学家杨立昆(Yann LeCun)所言,这是开源的胜利。开源模型从开源汲取力量也会回馈开源运动。比如DeepSeek模型采用的MOE架构就不是新事物,此前欧洲的大模型公司Mistral发布的开源模型就采用这一架构。
前所未有的信息透明度,引发了新的开源浪潮。截至2月底,阿里云、阶跃星辰、月之暗面、MiniMax、商汤、豆包、百度等多家公司都有开源消息传出。DeepSeek自身也继续加大开源步伐,中国的开源力量在进一步壮大。
此前游戏的“配角”们对开源力量的热情溢于言表。《自然》杂志在一个星期以内发表了五篇文章来关注DeepSeek。印度的技术论坛围绕着DeepSeek热议了一个多月。
在2月中旬举行的巴黎人工智能行动峰会上,DeepSeek也是讨论热门。Mistral公司联合创始人Arthur Mensch称之为“中国的Mistral”,认为它印证了开源的正确性,并给了Mistral继续发展的灵感。
巴黎人工智能行动峰会上DeepSeek备受关注。
AI应用热潮也因为这股开源浪潮正迎来爆发。大模型就像电力,现在小企业、小团队和科研部门能更方便下载和本地部署,接入到千行百业的场景应用中去。
就像硅谷知名风险投资家马克·安德森所说的那样,“作为开源模型,它是对世界的深远礼物”。
02
基础模型:人工智能新时代的一场团战
2月10日,OpenAI花了1400万美元在美国关注度最高的橄榄球决赛做了1分钟广告,致敬人类文明里的一系列里程碑。大模型最后出场,被OpenAI定义为人类最伟大的创新之一。
OpenAI广告中致敬登月的画面。
这个广告不算夸大其词。ChatGPT除了是一个成功的商品,更是人工智能新时代的召唤师。
英伟达CEO黄仁勋称,ChatGPT是人工智能的iPhone时刻。这个说法很清晰解释了GPT基础模型对人工智能产业的改变。iPhone诞生后,手机不再是打电话的工具,而变成了一个入口。之后,移动互联网时代跟着它来了。
类比手机的iPhone时刻,OpenAI推出ChatGPT后,大众感知到的人工智能也不是上一代的人工智能。而基于Transformer架构的“基础模型”是这个新时代的策源和驱动。
创新的种子在更早的2017年种下。从不那么正规的论文名字《Attention is All you Need》出自论文作者之一喜爱的披头士乐队;到论文署名时作者是排序随机排列;再到论文诞生的过程,8名不同背景和来历的员工从走廊上的偶遇和午餐时不经意的对话和许多灵机一动中创造了新架构——你能看到一切都那么有偶然性。
它带来的深远影响,当下似乎也很难描摹全貌。
ChatGPT是其中的重要瞬间,而高光时刻少不了2024年诺贝尔奖。物理学奖表彰了Geoffrey Hinton通过人工神经网络实现机器学习的奠基性发明,化学奖名单里则有谷歌旗下DeepMind公司用人工智能来解决蛋白质结构预测的AlphaFold2的发明者。人们意识到,人工智能还在变革科学发现。AlphaFold2就是基于Transformer架构的。
大众察觉不到之处,若干行业在上演的“杀死你的,与你无关”戏码,都与这场变革有隐秘的联系。以机器人领域为例,由于Transformer架构的新技术路线出现,机器人的核心能力点不再是机器人的机械结构,波士顿动力积累了20年的机械能力优势,在行业转向对机器人大脑和软件算法的追逐中变得毫无意义。有人将这场变革影响总结为“马斯克杀死了波士顿动力”,而线索源头则又回到了2017年。
可以说,“基础模型”已经成为当前人工智能领域最关键战场。它影响的不只是狭义的人工智能产业,还会颠覆科技创新本身。
阿里云创始人,之江实验室主任王坚博士比喻,它就像文明发展历程里的长江和黄河,有了这两条大河,才有沿着河流繁衍生息的文明和生态。
基础模型的基础性和深远影响,也让围绕着基础模型的竞争,变成了国家和区域在人工时代发展权的竞争。参与这场全球竞争的必要性不言而喻,以DeepSeek、阿里云、之江实验室为代表的中国开源力量对全球科技平权,消除发展鸿沟的价值也更为突出。
如何在这场竞争中获得更大主动?有必要回溯创新在美国的发生过程——从一篇论文到一个影响国家命运的产业育成,背后其实是不同组织形态,不同创新机制的合力结果。它诞生于众多偶然中。
种子出自谷歌的8人临时小组,其中不乏天马行空的想法和不同创意碰撞后的化学反应。
英伟达在一场活动上邀请了Transformer论文的八名作者。
之后OpenAI这样一家以反谷歌的名义集结的创业公司接下了火种。当时山姆·奥特曼和马斯克还在同一个阵营奋斗,他们希望更强大的人工智能不能出自谷歌。
由于不知道投入会产出什么,这件事也没有由已有的大公司来完成,谷歌自己就没能吸收论文的思路抢占先机。甚至组织形态上也不能完全按照此前的形式,于是非营利性组织OpenAI创立,由马斯克主要投资,它是硅谷风投创新机制之外的物种。
而OpenAI长成,又不只是创业公司的神迹。背后有2019年与云计算巨头微软秘密接触对方量身打造的超级计算基础设施。直到今天OpenAI身后也站着巨头微软。
对任何想要参与这场战争的国家、地区,这是一场团战,需要以符合科技竞争和创新发生的逻辑来参与。
从这个意义看,浙江涌现出了由梦想驱动的创业公司DeepSeek、云计算龙头阿里云和非营利属性的新型研发机构之江实验室,无意吻合了大模型时代多元主体参与的创新逻辑。
而多元主体,不同创新机制构成的“铁三角”,形成的机制互补特性,为中国参与这场基础模型竞争贡献了独特的浙江力量。解析浙江基础模型“三剑客”这一样本,也有利于在这场基础模型战争中走得更远。
03
创新从哪里来?
估计很多人没有留意孕育DeepSeek的母体,幻方的英文名,high-flyer,登录官网就能看到这个词。远大抱负的人。
对于事后想要寻找创新来路的人,这可能是另一个线索。梁文锋自己说的是,要做最难最正确的事。
它们表达了同样的意思,中国人要参与全球竞争,中国人要参与全球创新。就像钱学森几十年前的那句反问,“中国人为什么不行?”
浙江的三剑客,都有这种参与全球竞争的眼界和勇气。杭州城的另一个开源巨头阿里云,成立之初瞄准的就是全球云计算产业的竞争,它几乎与硅谷巨头前后脚迈出步伐。
云栖小镇孕育了阿里云。
而发布地学开源模型GeoGPT的之江实验室,心里想着的目标也是要为全球科学研究提供公共产品。
这是中国新一代创新者必然要走的路。这些角色批量出现在浙江也很好理解,这里市场经济最发达,企业实力雄厚,更有条件去参与全球硬核创新。同时,浙江本来就有义乌这样链接世界需求的市场,在传统产业竞争变得更激烈的背景下,整个社会更早体悟到要参与全球创新浪潮的必要性。
“信仰者会之前就在这里,之后也在这里。”梁文锋此前认为可以用这种方式识别AI信仰者。某种程度上,它可能还能解释为什么杭州在这波开源浪潮里得以形成“三剑客”格局。
2009年时,梁文锋就开始研究GPU计算,探索用模型来给市场定价。由于坚定相信计算可以改变世界,幻方在2021年早早投资AI算力,这为后来DeepSeek能参与大模型竞争奠定了坚实的基础。
阿里云押注云计算浪潮也始于2009年,经过多年积累成为全球云计算市场前四的玩家,并且2021年就开始了大模型的研发。而承担国家科技使命的之江实验室也早已调整规划,聚焦智能计算,构建了智算集群,在最后关键时刻赶上了大模型时代的班车。
承担国家科技使命的之江实验室在2023年调整规划,聚焦智能计算。
在这波浪潮里能站到前列看起来需要点运气,但本质上,球滚到了长期主义者们的脚下。
这波创新者们还有一个有趣的特质,他们的驱动力很少与商业数据挂钩,甚至充满感性色彩。
梁文锋此前提及,颠覆性技术面前,闭源形成的护城河是短暂的。开源发论文其实没有失去什么,价值可以沉淀在团队上,进而形成创新的组织和文化。幻方还在进军AGI的公告中写着,“好奇心,是最大的时代精神”。
肩负国家科技使命的之江实验室,研发团队在打磨GeoGPT时目标也非常朴素,他们提出要做出能让自己感到骄傲的产品,为全球的地球科学家服务。
另外,Transformer的发明历程充满了跨领域的碰撞和偶然。论文发布五年后能被大众感知到的ChatGPT才出现——这意味着创新需要生长空隙,才能走到大众面前。
而DeepSeek的发展历程也颇具偶然性,同时这种偶然里又有某种必然。因为只有市场经济发达的地方才能理解“资本”这种生产要素的重要性。
也只有市场经济发达,老百姓手里才有闲钱。这些钱可以投进互金平台,成就中国互联网金融之都;可以投资创业公司,让杭州成为“天使之城”,也可以流向中国第一家互联网银行或者中国最知名的量化基金。在幻方这种用计算给市场定价的量化操作模式赚到大钱后,大家也不觉得它是异端,这才有了后面的DeepSeek。
幻方量化成立于2015年,很快就跻身百亿私募。
十几年前,同样的故事也在这座城市上演过。云计算浪潮开启之际,杭州和阿里,也是全国为数不多没有把云计算当成骗子的城市和公司。而宽容和开放的环境下,十几年前的投资,最终也让阿里和杭州在大模型时代能手握全球前四的云计算公司这张牌。
浙江杭州是个愿意给“偶然”留出空隙的地方,这对这波开源创新浪潮在浙江涌现至关重要。
04
犄角之势
这一波人工智能发展浪潮,浙江既不算传统科教重镇,没有高端国际化人才优势,产业链完备程度也不占优势,能成为开源创新的重要节点,三剑客以不同的创新机制,扮演了不一样的角色。
打响这场开源战争的创业企业DeepSeek,不是传统的创业企业。
据说,它定义自己是“披着公司外衣的实验室”。这估计是强调理想主义色彩、基础模型的研究定位。阿里云创始人王坚博士则认为,这家公司的更好的定义是“拿着闲钱搞创新的创业公司”。
二者结合一下,也许能看明白它如何以不同于一般创业公司的创新机制来引爆开源浪潮。
用闲钱创业,能让DeepSeek能做出那个不顾商业模式追问的决定,选择最开放的MIT开源协议。那些对技术平权,科技普惠有巨大需求和渴望的地域、群体和组织,会因为这个最开放的协议传递出的普惠善意,积极拥抱和参与DeepSeek的开源生态。
Deepseek创始人梁文锋出席活动演讲图。
而不同于传统创投模式的资金结构和形态,也为梁文锋和围绕着他的技术理想主义者们打造一个更纯粹简单的环境。他不用回复朱啸虎们的PMF拷问,也不用太纠结APP日活有多少。就像目前这一波开源,所有自有部署的流量,他转手全送了。
而行业龙头阿里云的创新路径和模式与创业公司DeepSeek不同,对区域创新的价值也存在差异。
就像OpenAI背后有微软Azure的云计算巨头那样,目前美国主流的模型厂商都与头部的云计算公司形成了合作。依托于云计算基础设施来完成基础模型创新,已经是行业内通行做法。
阿里云作为国内云计算头号玩家,Qwen开源模型已经形成了广泛影响力,“云+AI”的组合,加上阿里的雄厚资金实力,能长久、稳健地推进大模型朝向全场景全模态全尺寸方向发展。
这里要说一句,杭州是国内为数不多云计算与基础模型都能参与全球竞争的玩家,而浙江杭州能握住这张牌,背后又是体制机制创新的结果。特色小镇的起点在云栖小镇,也是阿里云成长的地方。今天阿里能完成AI转型,三剑客里有阿里云的身影,十几年前云栖小镇时代就埋下了种子。
阿里云拥有海量的云计算用户,背靠阿里的消费电商场景积累的平台数据,也能为基础模型走向产业应用打开了通道。你甚至能从一些被外界视作“失败”案例里看到龙头型企业在推进前沿技术落地场景的作用和价值。
比如新零售领域,过去两年阿里坚决从这一领域撤退。但这些经过数字化技术彻底改造的企业,已经打造了一个数字底座,沉淀出了大量的场景数据。基础模型进步的成果也更容易被这些企业所吸收。比如插班生银泰百货,到阿里之后又退学,现在可能已经是国内商场零售领域最先用上Qwen和DeepSeek的企业。
从这个意义看,“失败”这个词对城市创新有着超越单一企业商业得失的价值。
而中小企业活力强劲,民营经济活跃,应用场景丰富,也让浙江具备从六七万家企业里长出六七条龙的可能性。这是“有效市场”的真正含义——创新充斥着偶然和不确定性,许多参与者会在黎明到来前死去。死得多了,土地才会肥沃,它们会成为新物种的养分。
浙江杭州市场经济发达,民营企业众多。
三剑客里,之江实验室作为国家战略科技力量,它的领域和机制又与商业公司不同。
作为一家非营利性的新型研发机构,之江实验室承担了国家的使命,能以重投入、重人才的方式大兵团作战。就像此前OpenAI的非营利属性一样,这种投入模式不用考虑短期的商业变现,可以从全社会的大盘子里来考量成果和价值。无疑,非营利属性和开放科学原则,让之江实验室能将这类成果奉献给全球科学界。
有人说,目前在全球科研领域由中国科学家主导的公共产品凤毛麟角。当下之江实验室的开放资源的整合和创新机制,正让浙江有机会参与到基于人工智能去改变科学研究体系和科学研究方式的全球大讨论中去。
可以说,从创新领域、机制、策源-赋能效应等多个维度,三剑客形成了一种犄角之势,互补协同,有机会与区域此前的禀赋如数字经济产业链、应用场景、产学研资源和数量庞大的中小企业等,构成浙江发展新一代人工智能的综合集成优势。
结语
像剑客一样,去战斗吧
“我们将以完全透明的方式分享微小而真诚的进步”,DeepSeek此前预告开源周十分谦卑真诚。它的开源成果也引起了全球技术社区的广泛关注。
2月底,阿里云开源了视觉生成基座模型万相2.1(Wan),采用了最宽松的Apache2.0开源协议。上个月阿里又推出了通义千问QwQ-32B推理模型。阿里云的全模态、全尺寸大模型开源之路还在继续。
中国的开源新势力正在以更彻底的姿态拥抱开放创新。这种前所未有的信息透明度,为全球人工智能的发展开辟了新的路径。它促使了原本封闭的基础模型厂商们在思考和调整策略,比如山姆·奥特曼就表示重新考量开源方式,最近OpenAI还预告将开源一款模型。
同时,它可能也会激励许多国家重新规划人工智能的发展。
日经新闻报道,日本AI研究第一人东京大学松尾丰教授称,“日本也需要努力开发生成式AI模型。像DeepSeek这样并非大型科技企业、也没有雄厚资本的公司,能够实现世界最先进的精度,这对日本的初创企业来说也是一种鼓舞”。
今年2月在巴黎举行的人工智能行动峰会上,加纳AI战略专家、rAIma首席执行官Rashida Musa称,他们观察到DeepSeek无法获得最优越性能的芯片却突破困境进行创新。“这也是我们非洲必须要做的事。有了开源模型,我们可以更好地创新。对于未来,我很期待看到非洲的年轻人不再只着眼于商业成功,而是思考创造力、激情和影响力。”
在那些人工智能前沿创新逐渐沉寂的土地上,枪声正在次第响起。
剧照截图,图文无关。
对中国的开源新势力而言,竞争也不可避免地变得激烈起来。信息更透明后,玩家们希望快速完成商业循环正事实上变得更困难。
同时,开放分享也会让竞争对手获得技术。比如美国本身就有强大的开源生态,Meta的Llama系列开源模型的影响力就不可小觑,而美国的开源社区及工具生态本身就很强大。中国的开源生力军们分享的技术也在让对手变得更强大。
可以想见,国内开源的领头羊正面临着前所未有的竞争压力。
如何持续保持创新?当然是像剑客一样去继续战斗。
“务必要疯狂地怀抱雄心,同时要疯狂地真诚”。
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论