大模型“四小龙”，能否跨越深渊？

2024-01-26 13:43

脑极体

关注

一张名为《大模型的深渊》的图，在去年广为流行。吃瓜群众惊诧地发现，原来绝大多数大模型，都挤在深不见底的层级,“宣称自己快要落地的”“再等等决定啥时候落地的”“什么落地不落地的”“怎么还有这么多没听说过的大模型啊”……

时至今日，国产大模型数量已经达到200多个，“深渊”更深。

其中，很多低水平重复造轮子的大模型，无法满足个人和产业的使用需求，发布之后无人问津，已经不可能在业内翻起什么波澜了。而那些真正具备技术价值和商业价值的大模型，也如同“潜龙在渊”，逐渐显露出“一飞冲天”的苗头。

上一波2015年左右开始的AI创业浪潮，以CV计算机视觉技术为主导的初创企业中，号称“CV四小天鹅”的商汤科技、旷视科技、云从科技、依图科技，也被誉为中国的“AI四小龙”，成为那一个AI繁荣周期中的标志性创新企业。

那么，由大模型开启的新一轮繁荣周期中，自然也会有“潜龙在渊”。谁会成为类似“AI四小龙”这样的潜力股呢？答案基本藏在这三个梯队里。

大模型“四小龙”的一鳞半爪

业内流传一句话：小创新靠大厂，大创新靠小厂。从昔日的DeepMind到去年的OpenAI，这些年轻、新锐的技术团队，回归创新本源，一次又一次给业界带来颠覆性的变化，成为从业者和投资人眼中的“潜力股”。

所谓大模型的“潜龙”，有两个基本条件：

一是“潜”，相比谷歌、微软、英伟达、百度、腾讯、阿里等科技巨头，成立时间更短、队伍更加年轻化，组织效率和灵活度更高。

二是“龙”，有着不输给大厂，甚至超越大厂的技术创新性，基础模型是自研的，并且是L0级的通用大模型，可以为行业大模型、垂类大模型提供底座，具备向多个产业转化的潜力，有望带来高增长和高投资回报率。

虽然机器视觉公司也都推出了大模型，技术实力不俗，但并不算是AI新面孔。而使用开源LLaMA 架构的零一万物，以及被大厂收购不再独立竞争的光年之外，虽然够“新”，但发展遇到较大的转折点。所以这些企业及其大模型，我们就不放在此次讨论。

总体来说，有三类大模型企业，目前都得到了国内外知名投资机构或行业客户的支持，拥有较高的技术认可度与商业转化潜力，可以被看作是“大模型四小龙”的预备役。

1.明星派

明星创始团队，具备在工业界或学术界的知名度和影响力，打造的大模型一出世，便凭借“明星效应”，备受业界关注。

包括，由前搜狗公司CEO王小川创立的百川智能（2023年3月，拥有多种参数的Baichuan系列大模型）；由前商汤研究院副院长闫俊杰创立的Minimax（2021年12月，拥有ABAB 大模型）；由中国最早从事中英机器翻译领域的研究者之一、2023年ACL Fellow周明博士创办的Langboat澜舟科技（2021年6月，拥有通用大模型孟子）。

2.技术流

相比“明星效应”，技术流更强调技术实力，其中典型代表是智谱AI。作为一家清华系初创公司，智谱AI在2019年成立时就把OpenAI当作对标，将实现AGI通用智能作为目标，是中国最早启动预训练模型研发的科技公司之一。智谱AI最新发布的基座大模型GLM-4，在一系列评测中的表现也被认为逼近了OpenAI的GPT-4。

3.务实派

被寄予厚望的明星派、技术流，都是“高高在上”的，从业务/商业土壤上生长出来的务实派大模型，也可能凭借落地应用而闯出一条路。比如2023年问世的“天工”大模型，由昆仑万维自主研发，大模型AIGC与昆仑万维的搜索、游戏、社交、娱乐等业务的结合，快速进入应用周期，也让昆仑万维成为闯入大模型领域的一匹黑马。

需要说明一下，三个类别是看“最长板”，并不意味着其他赛道的能力不高。

拥有明星创始团队的大模型，性能也可能并不逊色于技术流；拥有强大基座模型的技术流，也可能牵起强悍的运营队伍，带动产品落地；而务实派是“根据钉子造锤子”，但锤子要是不够硬，啥也砸不下去，所以技术能力也得过硬。

凝视大模型的“商业化”深渊

对标“AI四小龙”，可能并不让大模型企业很高兴，反而是忧虑更多。

以计算机视觉为核心的“AI四小龙”前期融资能力很强，但普遍遭遇了商业化的艰难探索，面临盈利难、市值下降等困扰。而大模型的落地“深渊”，背后是更加漫长的商业化之路。

但是，逃避、讳莫如深，是无法打消投资人、市场和用户的顾虑的。无论大模型企业是否愿意凝视深渊，深渊一直都在凝视着大模型。

直面大模型的“商业化”深渊，相比上一轮AI，有三新一旧：

三新：新环境、新规模、新要求。

简单来说，大模型企业面临着更加严苛的融资环境，随着全球流动性衰减，科技企业的高估值都很难保持，庞大如谷歌都在裁员“降本增效”，融资难度更大了，比如智谱AI的融资水平就明显不及当年的商汤科技。

同时，大模型又是一个重投入的行业，基座模型的技术竞赛，还远远没到终结的时候，持续向上探索意味着长期烧钱，需要的资金规模更大。而吸取了上一轮AI投融资经验的投资人，面对大模型也格外冷静，对初创企业的自身造血盈利能力提出了更高的要求。

一旧：AI标品化依旧很难。

南橘北枳，在中国做AI，照搬OpenAI是绝对不行的，要看到铁一般的事实：中国toC市场对AI等软件产品的付费意愿不高，监管严格，很难做，真要做也要配备庞大的团队去确保安全合规，投入并不小。

toB市场也有很大的差异，国内企业大多不信任SaaS模式，更倾向于私有化部署，行业市场分散，中小客户众多，需求纷繁复杂，高薪的算法工程师到一线做一个几十万的项目很常见。

至于toG市场，智能化项目竞争激烈，而且事多钱少利润薄，上一轮机器视觉公司基本在做自动驾驶、智慧城市、安防等业务，都挣的是辛苦钱。一般来说，CV计算机视觉类项目费用，是比NLP自然语言处理类高的，所以大语言模型想要靠项目制获得高客单价，也是很困难的。

究其原因，ToB/ToG市场的AI项目，大多以解决方案式落地，政企机构更希望打包式引入AI、云、IoT等软硬件，针对自身打造定制化方案，AI产品无法以标准化、模块化的形式快速交付，前期要投入很高的成本。

从这个角度看，整体投入更大、单个项目收益更小，大模型的商业化挑战，比上一波机器视觉公司更严峻。

那么，“大模型四小龙”，会重蹈覆辙吗？

龙跃于渊，大模型盈利出路在哪里？

悟已往之不谏，知来者之可追。面对AI商业化难题，也不必悲观，事实上，我们看到大模型“四小龙”预备役们，大多能开始吸取经验开新局。我们也发现了一些共同点：

共同点一：降本，但不“增笑”。

对内“节流”，提高人效。相比上一轮AI创业热潮中“高薪挖算法/科学家”，这些大模型“潜龙”从一开始就会注重“人效比”。

此前科技行业的高流动性、高估值，也催生了“独角兽”们随意扩张，反而造成了大量的低效现象，比如硅谷“神员工”精通各种编程语言，原来是把工作外包给多个中国工程师，几年都没被发现。这种环境也导致创新大幅度收缩，初创企业招人成本奇高。

而这波大模型创业热潮中，企业对于人员扩张都是比较谨慎的。周明曾对媒体说过，开始创业时团队只有他自己，后来扩展到5个人，慢慢开始训练模型，以一个“轻量化”的团队做出的孟子模型，未来应该长期稳定在百人的规模。百川智能、智谱AI也是类似的思路。

对外降本，提升大模型企业的盈利潜力。帮助企业和用户“节流”，降低应用大模型的成本。很多客户的痛点是，用大模型的成本压力很大，希望大小模型结合，来提高投入产出比。比如百川、智谱AI都推出了多种参数的大模型，来综合不同需求。

共同点二：聚焦toB，重视现金流。

这些大模型企业从一开始就聚焦在toB市场，智谱AI的CEO张鹏、澜舟科技创始人周明都曾明确表示过，优先发展toB企业服务业务。

从数字化到智能化，传统AI厂商需要从零开始做用户教育，去讲述AI技术降本增效的价值。与之相比，大模型的认知度和接纳度，都是非常高的。各行各业对生产力的渴求、对应用AI的共识，都非常充沛。这给大模型企业带来了非常好的增长基础。

百炼智能发布的《大模型招标需求分析简报（2023年1月-11月)》显示，7月起，随着国内130个大模型相继问世，大模型招标需求量开始呈现明显上升趋势。11月迎来增长高峰，需求量较前月翻至近3倍。其中选择投入10万-50万预算进行小规模尝试的企业最多，同时也有不少以国央企为代表的企业开始释放百万级项目预算。

如前所说，toB的钱也未必好赚。企业客户虽然付费意愿比C端用户高，但toC应用可以标品化、大规模地吸引用户付费，而toB智能化项目却需要定制化，投入更大。此前机器视觉公司也曾想将AI模型跨场景、泛化应用，但发现现实世界的商业模式依然是强定制，成本居高不下。

这个问题，在大模型创业者中有比较广泛的共识，也都在积极探索解法。百川智能CEO王小川曾对媒体透露，要突破toB定制化问题，通过可配置、可调整的搜索增强知识库，以产品化的方式，通过不同的产品组合，来解决客户的定制化需求。

共同点三：广交朋友，积极开源。

“定制化”之所以成为企业的天然需求，一个主要原因是AI落地业务场景，是从零开始的，AI要和业务一起磨合才能发挥作用，很多场景是无法用一个通用产品来解决的。智能化是一门长期的慢生意，是离不开生态合作伙伴，去深入行业，做大量定制化工作的。

这些年，我们团队实地走访了不少AI+工厂、AI+养猪、AI+巡检、AI+煤矿、AI+码头等智能化项目，最常见的一个场景就是：AI企业的科学家、算法工程师、产品运营人员、项目经理等各色人等，有的在田间地头码头仓库，一待就是几个月，去了解基层人员的工作需求，去从头设计作业流程。

而智能化往往也伴随着“去人化”，有的时候一线工作人员也会不理解、不配合，大大延缓项目进度。有一年冬天，某煤矿智能化团队在陕北某场站调研时，工作人员不想搭理他们，就故意不开暖气炉，想让他们大冷天的自己知难而退。还有一次，在一家养猪场，管理方希望用智能摄像头来实时感知猪的体温，防范猪瘟等传染病，但算法性能一直提不上去，最后技术人员在现场反复调研，发现是因为猪皮太厚了，导致体温识别准确率下降……

不难看到，这些十万、几十万的中小微企业的小项目，可能客单价比不了大B/政府类客户，但数量多、规模大，以基础大模型作为底座，进行定制化开发，可以极大地提高基座模型厂商的使用率，吸引更多伙伴/ISV服务商去打造商业版。

吸引行业伙伴，百川智能、智谱AI、昆仑万维、澜舟科技都相继开源了数个模型。

但我们都知道，开源容易，做生态难。一个大模型开源之后，生态繁荣不起来，没有开发者来持续贡献、打造商业版，无法形成正循环。

要吸引开发者，一是基座模型的能力还是要过硬，理解分析逻辑不能有硬伤。奥特曼就曾经说过，GPT-4的很多问题会在GPT-5得到解决，希望开发者基于AGI通用人工智能去设计业务。换句话说，更强大的新模型，可能会将旧模型的商业价值一笔勾销，让开发者彻底白干。所以，开发者一定会选择将时间精力放在那些最先进的基座模型上，避免被卷得太快。

此外，需要良好完备的工具栈。大模型要用好，软件也要做一定的适配和改造，则考验的是大模型厂商的工程化能力，软件是否对开发者友好。而“四小龙”中比较多初创公司，工程团队在规模、人才、经验、积累等方面可能与BAT这类成熟企业有差距。比如任务调度、代码可读性、技术文档、标准数据集等，减轻开发者和伙伴们的负担，共同把大模型用好。