大模型的“成本瘦身”运动

2023-11-03 10:15

脑极体

关注

数据大、参数量大、算力大，大模型的某些能力才会“涌现”，这一点在科技圈广为流传。

做大模型的主流思想是：不要轻易说模型“不行”，如果“它还没行”，那就做得更大一点。

所以，不到一年的时间，大模型的参数规模增长100倍，如今已经突破了万亿级别，资源消耗量巨大，也带来了越来越高的存储成本、推理成本、运维成本、落地成本……以及社会成本。

目前，大模型仍处于商业化的黎明，如何回收大模型的投入，还存在很多未知数与不确定，而大模型一直在变大，成了一门极其烧钱的生意，背靠微软的Open AI，2022年就亏损了5.4 亿美元左右。

不断膨胀的成本，就是一张张真金白银的账单，压在大模型企业身上的一根根“稻草”。Anthropic的首席执行官Dario Amodei最近预测，在未来两年内，他们的模型成本将达到100亿美元。

除了企业自身，社会也同样在承担大模型的隐形成本。谷歌就曾报告称，训练 PaLM 在大约两个月内耗费了大约 3.4 千瓦时的电量，相当于300 个家庭每年的能源消耗总量。大模型高能耗给环境带来的负担和成本，最终由整个社会来买单的。

很显然，无论是商业上、环境上，比拼模型体量都是不可持续的。

一味求大的时代，已经过去了。

问题是，怎么给大模型“减负”呢？

事实上，通用大模型的头部厂商，一直都在积极地开展“成本瘦身”运动。

比如微软在Microsoft Build 2020 上曾公开了为GPT-3提供支持的AI supercomputing超级计算机，可以让AI模型的训练效率比其他平台高16倍，更快的训练可以降低时间成本与风险成本。

国产大模型也不例外。

盘古大模型早在2.0版本中，就尝试采用稀疏+稠密架构，以降低训练成本。文心一言推出一个月以后，也通过技术手段将大模型的推理性能提升近10倍，推理成本降到原来的十分之一。

避免走向臃肿沉重，成为人人都能使用的工具，大模型的“成本瘦身运动”，势在必行。具体怎么实现？本文就来谈一谈这个问题。

一口吃不成胖子

大模型的哪些成本可以优化，哪些成本无法削减，哪些成本还要进一步加大投入？搞清楚这些之前，首先得知道是怎么胖的。才能在保证大模型的性能表现和用户体验（健康）的前提下，合理且精准地进行“成本瘦身”。

简单来说，AI三要素——数据、算力、算法，仍然是决定大模型成本的最关键因素。

先说数据。garbage in, garbage out，在大模型时代依然适用。

数据质量会直接决定大模型的能力。OpenAI招聘了多位博士来处理各行业的专业数据，并找了独角兽企业Scale AI等多家数据标注公司，给GPT-3进行大规模的数据集投喂。同时，算法模型会不断迭代升级，对数据量的需求会随着使用量的上升和性能优化而持续不短的时间。

中文大模型的成本高，一个主要原因就是，中文数据量和质量，与英文还存在差距，训练中文大模型，需要采集和处理的中文语言数据更多。另一方面，英语语法结构相比中文更简单，中文文本的复杂性和多样性，有的中文词汇可以表达多种含义，语境丰富，上下文理解的歧义多、难度大，也增加了中文模型的训练难度，需要额外的资源来支撑中文大模型的训练。

再说算力。

大模型的训练、运行、服务、迭代等一整个全周期，都要计算和存储资源。

大模型的训练，主打一个“暴力美学”，参数越大，训练所用的计算资源就越多。GPT-3所使用的超级计算机，包含了一万个GPU、285000个处理器内核。国内的文心4.0，也是基于飞桨平台在万卡集群训练出来的。

这还不算完。大模型在部署后开放服务，随着使用量的增加，要完成的推理任务也越来越多。24小时进行大量的“思考”和“输出”，这个推理过程，也会持续消耗计算资源，就像人脑在处理大量复杂任务时，需要消耗糖原，很容易感到饥饿，得大吃一顿来补充能量。所以，大模型的推理成本也是很高的。

175B的GPT-3部署后的推理至少需要五个A100 GPU，而国内面向全社会开放服务的大模型，比如文心一言，据说推理成本也是上一代的8-10倍。

最后说说算法。

降低大模型对计算资源的巨大依赖，一个主流方案是优化模型，在性能不变的基础上，以更快的推理速度、更小的延迟、更低的资源需求来运行，相当于ROI投入产出比更高了，训练、推理环节所需要的算力资源，单位成本更低。

有多少人工，就有多少智能，没有人才不可能搞出真正能打的大模型。算法开发、测试、迭代、产品化等，都需要大量技术人才。人力成本究竟高不高，还要看大模型的商业模式是否稳健。

学历拉满的人才队伍，在研发阶段，是相当有竞争力的。问题在于，怎么挣钱呢？API调用或使用量收费，一个token不到一美分，回本盈利可能遥遥无期；付费订阅（专业版），头部大模型具有虹吸效应，大家都会选择OpenAI或BATH等大厂，自家大模型能否被用户接受并愿意付费，是未知数；给行业客户定制开发，ToB要深入了解行业，调研开发测试迭代，让年薪几十上百万的算法工程师，在工地矿山农场一待几个月，项目的毛利率估计不会太好看。

所以，一个大模型能不能成功，不仅仅是靠算法本身的能力，还要看从开发到落地的商业循环是否可持续。

管住嘴，迈开腿

如果我们把大模型的成本“瘦身”，比作一个希望减去多余赘肉的人，那么这个目标，可以拆解为两种基本途径：

一是制造“热量差”。就是管住嘴迈开腿，控制投入，减去多余的成本，加速商业化提高收入，自然就瘦了。

二是变成“易瘦体质”。充分了解大模型的机理，用新的架构来解决Transformer注意力机制的问题，拥有“怎么吃都不胖”的体质。

听起来，第二种是不是非常有诱惑力呢？

不用苦哈哈的控制成本、吸引用户、定制服务，轻轻松松躺着挣钱，还有这种好事儿？确实。

目前，所有的大语言模型都用的Transformer架构，而这种架构难以处理长文本及高分辨率图像，逻辑推理、知识归纳等就靠“大力出奇迹”，成本高昂。很多基础原理仍然不清楚，这就导致很多现存问题束手无策，比如“幻觉”的产生，推理能力有限等。

图灵奖得主 Yann LeCun就不止一次批评过大语言模型的技术范式，认为“LLM 对世界的理解非常肤浅”，他希望构建一个“世界模型”，先学习世界运作方式，而后形成一个内部模型，再通过这个内部模型来完成各种任务。除此之外，关于AGI通用智能还有许多科学家从各自的研究领域去探讨。

总结一下，当前的大语言模型，很多原理尚不清晰，技术仍在变化中。未来可能会出现其他技术范式，颠覆当前一味求大的模型，那时可能就不需要过高的成本，也就不用痛苦地“瘦身”了。

可能你已经发现了，研究底层的原理、找到一种更强大的AGI技术，这事儿虽然听起来很酷，但实在没谱，目前还没有一个清晰的时间表。而这一轮大语言模型的技术范式，在工程实践上是可行的，在产业中能work的，有提质增效的明确效果的。先用起来，把握住现在，才是科技企业的当务之急。

所以，大模型企业只能管住嘴、迈开腿，尽快控制成本、加速商业化，制造良性可持续发展的“热量差”。

制造“热量差”的四化运动

那么，究竟该怎么制造“热量差”呢？综合目前市面上的主流手段，我们将其总结为“四化运动”：数据规模化、模型压缩化、计算高效化、商业分层化。

数据规模化，是通过规模效应，来提高数据的边际效益，获得最佳性价比。规模效应主要通过三种方式来实现，一是产业集中的规模化，国家层面已经明确提出，要“加快培育数据要素市场”，涉及数据生产、采集、存储、加工、分析、服务等多个环节，产业化有助于减少大模型企业的数据成本。二是AI工具的应用，减少数据工程各个环节的人工参与，加快预训练数据的处理，为模型训练降本提效。三是反馈数据的规模化。大模型对微调数据（SFT/RLHF）的需求量和质量要求很高，一些更早向全社会开放服务的大模型，如百度文心一言、商汤“商量SenseChat”、百川智能“百川大模型”、科大讯飞“星火大模型”等，“数据飞轮”更早开始转动，有望更快一步达到边际效益最优的数据规模。

数据是有边际效益的。OpenAl 已经可以让用户来决定，是否允许其使用聊天数据进行训练，也就是说，可以不再依赖用户反馈数据了，那么数据的存储和计算成本自然就能控制住了。

模型压缩化，就是提高模型的性能，以更少的资源实现更高性能，将资源密集型的大模型，通过压缩技术，转化为更加紧凑高效的版本。类似于将脂肪转化为肌肉，肌肉的密度更大，体重（性能）不变，人却变瘦（更小）了。

目前，大模型压缩的常见手段，主要有三种：量化、剪枝、知识蒸馏。

量化，相当于抽脂，简单粗暴但是有效。模型的精度越高，所需要的存储空间就越大。但在推理时，其实并不需要捕捉复杂模型中十分微小的梯度变化，所以量化可以直接降低模型的参数精度，“抽”去一部分细节性信息，从而减少占用空间，同时也不过于降低推理能力。比如以问生图的生成式 AI 模型Stable Diffusion，此前只能在云端运行，高通AI Research使用量化技术，让模型可以在更低精度水平保持准确性，首次实现了在 Android 智能手机上部署 Stable Diffusion。量化技术，也在文心、盘古等国产大模型中有所应用。

剪枝，类似“切除手术”，直接减去一些对效果没什么影响的旁枝，比如大量冗余的结构、神经元，这些权重较小的部分删减掉，对模型效果带来的影响不大，也减少了模型的大小。当然，剪枝是一门“手艺活儿”，剪枝越精确，给模型准确率的损失就越小，压缩效果越好。

知识蒸馏，就是让大模型“蒸桑拿”，千亿模型一通蒸馏，产出若干个性能接近、结构更简的小模型，落地成本更低。挑战在于，千亿规模的模型蒸馏，也要消耗极高的计算资源，而且，从千亿蒸馏到几千万，数据量差距过大，容易影响蒸馏的效果。无损蒸馏，是各大厂商的技术赛点之一。

既然模型压缩技术，也会消耗计算资源，那么提高算力基础设施的计算效率，就变得格外重要了。

计算高效化，是大模型厂商能够以更高效益来提供模型服务的前提。

芯片和计算集群的性能，是研究和优化的重点。微软云azure专门为OpenAI打造了适用于AI计算的超级计算机。国内厂商，百度、华为都拥有自研芯片、深度学习框架，可以通过端到端优化来提升计算效率，提升大模型的训练速度和推理速度，从而降低训练时间和成本。

而对于产业大模型、行业大模型等非通用大模型来说，规模效应和硬件优化技术有限，自行构建和维护基础设施的成本是非常高的，使用云服务来训练和部署服务，是成本更优的选择。

归根结底，大模型要提升商业收入，来达到优化ROI、回收成本的目的。目前，各类大模型的商业化，体现出了明显的分层化特点。

简单来说，就是不同体量、不同功能、不同方向的大模型，商业化路径也开始泾渭分明。

通用大模型，以规模效益、高价值市场，为主要目标。OpenAI的用户量巨大，发展API经济具有规模效应，前期投入可以随着业务量增长而被均摊。BATH（百度、阿里、腾讯、华为）等都有各自的云业务，积累了较为丰富的行业服务经验，尤其是金融、矿山、政务等大型政企的客户触达能力，具备较大的商业转化潜力，因此除了面向大众服务的订阅模式、商业版付费模式等，也可以开展高价值的ToB项目定制开发。ToB客户的高要求推动模型体验和效果提升，也可以服务ToC市场，通过规模化来进一步摊平成本。

行业大模型，则在主动收束产品和业务边界，围绕核心业务和功能，以更少的资源来开发专精的小模型，在投入和商业化之间取得一个很好ROI平衡。比如金融领域，度小满的“轩辕70B”融入了大量的专业金融语料，提高对金融知识的理解能力，可控性、安全性上满足金融客户的特别要求，获得了上百家金融机构申请试用。

总而言之，大模型并不是只有通用、泛化一条路，千行百业的私有化、个性化部署，会产生价格、隐私、安全等多方面的决策因素，也带来大量的细分商机。通用大模型与行业大模型、专有小模型，分层+合力打开商业化之路。和而不同，考验着产业链上每一个角色的智慧。