百模大战,谁是下一个ChatGPT?
03 AI热“两极化”,中间真空
大模型让AI公司越来越重。
4月10日,商汤在公布“日日新SenseNova”大模型体系的同时,其实还提到另一个关键点,即依托于AI大装置SenseCore实现“大模型+大算力”的研发体系。
为了满足大模型海量数据训练的需求,原本可以轻装上阵的算法公司,开始自己做云,也自建人工智能数据中心(AIDC)。
另一个案例就是毫末,这家自动驾驶公司为了用大模型训练数据,也建了自己的智算中心。
这些垂类的AI巨头和独角兽,之所以要自己做的这么重,最重要的原因之一,就是市面上几乎没有高性能的现成产品可以满足。
近年来,大模型参数量以指数级的速率提升,而数据量随着多模态的引入也将大规模增长,因此就必然会导致对算力需求的剧增。例如,过去5年,超大参数AI大模型的参数量几乎每一年提升一个数量级。过往的10年,最好的AI算法对于算力的需求增长超过了100万倍。
一位商汤员工表示,商汤上海临港AIDC的服务器机柜设计功耗10千瓦~25千瓦,最大可同时容纳4台左右英伟达A100服务器,但普通的服务器机柜普遍设计功耗以5千瓦居多,而单台A100服务器的功耗即高达4.5千瓦左右。
科技巨头就更是如此,每个巨头都希望在自己的生态中形成闭环,一定程度上也是因为整个国内开源的生态不够强大。
目前,大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链比较成熟,形成了数量众多的AI Infra(架构)公司,但这一块市场在国内还相对空白。
而在国内,巨头们都有一套自己的训练架构。
比如,华为的模型采用的是三层架构,其底层属于通识性大模型,具备超强的鲁棒性的泛化性,在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是,当训练好的大模型部署到垂类行业时,可以不必再重复训练,成本仅是上一层的5%~7%。
阿里则是为AI打造了一个统一底座,无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练,阿里训练M6大模型需要的能耗仅是GPT-3的1%。
百度和腾讯也有相应的布局,百度拥有覆盖超50亿实体的中文知识图谱,腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。
整体来看,各个大厂之间的侧重点虽然有所不同,但主要特点就是降本增效,而能够实现这一点,很大程度上就是受益于“一手包办”的闭环训练体系。
这种模式在单一大厂内部固然有优势,但从行业角度而言,也存在一些问题。
国外成熟的AI产业链形成了数量众多的AI Infra公司,这些公司有的专门做数据标注、做数据质量、或者模型架构等。
这些企业的专业性,能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。
比如,数据质量公司Anomalo就是Google Cloud和Notion的供应商,它可以通过ML自动评估和通用化数据质量检测能力,来实现数据深度观察和数据质量检测。
这些公司就像汽车行业的Tier 1,通过专业的分工,能够让大模型企业不必重复造轮子,而只需要通过整合供应商资源,就能快速地搭建起自己模型构架,从而降低成本。
但国内在这一方面并不成熟,原因在于:一方面国内大模型的主要玩家都是大厂,他们都有一套自己的训练体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够庞大的创业生态和中小企业,AI供应商也很难在大厂之外找到生存的空间。
以谷歌为例,谷歌愿意将自己训练的数据结果分享给它的数据质量供应商,帮助供应商提高数据处理能力,供应商能力提升之后,又会反过来给谷歌提供更多高质量数据,从而形成一种良性循环。
国内AI Infra生态的不足,直接导致的就是大模型创业门槛的拔高。
王慧文刚下场做光年之外的时候曾提出5000万美金的投入,这笔钱其实是李志飞为他算的,具体可以分为2000万美金搞算力,2000万美金找人,1000万美金做数据。这体现出一个直接的问题,如果将在中国做大模型比喻成吃上一顿热乎饭,那必须从挖地、种菜开始。
目前,在AI 2.0的热潮中,一个重要的特点就是“两极化”:最热门的要么是大模型层、要么就是应用层。而类似AI Infra(架构)的中间层,反而有很大的真空。
别都盯着造轮子,能造一颗好的螺丝也很重要。
04 结语:巨头&创新者
王小川和百度的隔空口水战,成为最近大模型混战中一个热闹的插曲。
“高富帅”李彦宏认为,中国基本不会再出OpenAI,用巨头的就可以了。
“直男”王小川说,行业中有些人(李彦宏)对未来的观点从来就没有判断对过,一直活在平行宇宙里。
除了陈年恩怨,这大体上可以看作是巨头和创业者之间的立场对立:巨头都喜欢包揽一切,而创业者则喜欢打破常规。
而科技行业的成功似乎更依仗于创新。毕竟,从打造AlophaGo的DeepMind,到发布ChatGPT的OpenAI,没有一个是从巨头中孵化出来的。
这就是创新者的窘境。
对于科技巨头而言,自己造轮子固然重要,但能找到、孵化出下一个OpenAI又未尝不可呢?
原文标题 : 百模大战,谁是下一个ChatGPT?
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论