ChatGPT也会“饿肚子”？

2023-02-16 09:22

前些天ChatGPT的崩溃，着实让广大用户体验了一把AI软件的“算力危机”。而事实上，除了算力危机外，ChatGPT一类的人工智能聊天软件，竟然也会有“饿肚子危机”，一旦陷入该危机，将出现有算力也给不出合适答案的情况。ChatGPT尽管并非生命体，不需要进行生物学意义上的进食以获得营养，但是其需要大量的数据来训练，特别是语料，即一定数量的文本资源集合。有了这些语料的训练，类似于ChatGPT的人工智能软件才能对用户的信息做出正确的反应，并给出正确且语句通顺的回复信息。事实上，这些软件吃得越饱，吃得越好，工作的效果一般也会越好。大致明白了这类软件要吃的是什么之后，在我们的A股市场，又有哪些公司，可以参与这项“做饭”的工作呢？

人民网、浪潮信息

食材提供者

“高端的食材，往往只需要最简单的烹饪方式”——《舌尖上的中国》第一季。

对于ChatGPT来说，什么是高端的食材？来看下面这个例子。

假如向ChatGPT提问：2022年，中央网信办举报中心指导全国各级网信举报工作部门、主要网站平台受理网民举报色情、赌博、侵权、谣言等违法和不良信息1．72亿件，如何看待这一数据？

食材1：不良网络给人们的生活带来的危害是多方面的。虚假信息往往使人上当受骗，不仅造成经济上的损失，而且还会给受害人带来精神上的伤害。造谣传［遥］会混淆是非，使人真假难辨，易引起思想混乱，影响社会和谐。总之，不良网络其社会危害性不可小觑。因此净化网络空间除了相关部门加大督察整治和打击的力度外，对于各网站及我们每个人来说也是责无旁［带］的。

食材2：网络违法和不良信息的出现与存在，是“冰冻三尺非一日之寒”，清除有害信息、根治顽瘴痼疾也很难一蹴而就。这就需要找准治理的重点，平台需要加大优质信息供给，多平台、多渠道、多形态提供群众需要的网络内容及信息服务，做到用正能量驱散负能量。使网络空间清朗起来，不是一时的事，而是一直的事，需要网上网下集众智、汇合力，为文明办网、文明用网、文明上网、文明兴网保驾护航。

无论网上还是网下，无论大屏还是小屏，都没有法外之地、舆论飞地。综合运用法律、监管、平台、技术等手段，坚决遏制各类违法违规问题，不断提升网络空间治理效能，做到利刃出鞘、精准打击、发力增效、久久为功，让网络不良信息无处遁形，让清风正气分外充盈。

是的，第一份食材出自一段普通的针对网络有害信息的问答，里面还有两个明显的错别字，而第二份食材，则是出自人民网针对网络有害信息的时评。而这，正是中央级别大型媒体的优势：尽管这些文字显然还不能作为聊天机器人最终的答案，但如果语料更为优质，后续加工出来的食粮需要的加工程序也会更少，输出效果也会更佳。

不过，中央级的媒体，也并非只有人民网一家，为何人民网会成为语料提供者的排头兵呢？

答案就在人民网，对于数字经济的布局。其中，特别是人民数据已经布局了新型数据中心和新型算力中心，进而人民网可以轻松地基于知识图谱、自然语言处理和人工智能等技术，深度挖掘自由的核心数据资源（优质语料等）。

图片来源：人民网2022年半年报

自己拥有大量优质语料，又有着数据提供的布局，那自然而然，论优质语料，人民网是当仁不让的食材提供商。

除了人民网之外，浪潮信息的源1．0，同样是食材的宝库，只不过相比于人民网来说，浪潮信息是以量取胜。

2021年9月28日，浪潮人工智能研究院在京发布全球最大规模人工智能巨量模型“源1．0”。“源”的单体模型参数量达2457亿，超越美国OpenAI组织研发的GPT－3，成为全球最大规模的AI巨量模型。

这个模型的数据量大，并非是他适合作为原材料的理由，更重要的是，这款“源”是中文巨量模型，其蕴含的中文语料极为丰富，浪潮信息基于源1．0发布了4个技能大模型，对话模型源晓问、问答模型源晓搜、翻译模型源晓译、古文模型源晓文。这些模型，特别是有中文特色的对话、古文等模型，对于发展国内对标ChatGPT的智能聊天产品有着至关重要的作用。

去年，浪潮“源1．0”大模型登顶CUGE（一款清华北大领衔的中文机器语言能力评测基准）总榜榜首，并获得语言理解（篇章级）、语言生成、对话交互、多语言、数学推理等5项评测最佳成绩。足见这款模型在中文语料领域强大的优势。

拓尔思、博彦科技

我们来做饭、喂饭

和做饭类似，有了原材料，还需要一定的加工烹饪，才能成为真正的数据食粮，让AI系统能够学习、消化。

事实上，有专门的学科去做这块的业务。自然语言处理（NLP，Natural Language Processing）是研究人与计算机交互的语言问题的一门学科。按照技术实现难度的不同，这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型

在A股市场，有不少公司拥有语料加工相关的业务，而拓尔思正是其中之一。

2022年12月，拓尔思在接受券商调研时曾表示，公司作为国内最早从事自然语言处理（NLP）研发的企业之一，在NLP、知识图谱、OCR、图像视频结构化领域都具备自主可控的底层技术。在AIGC方面，公司围绕传媒、政府等垂直领域的语料库积累已非常全面，在智能问答、自动写作或智能写稿、内容播报、创作智能辅助等方面亦有成熟应用场景。

更为重要的是，拓尔思已经有专门的平台，去做语义处理这个事情了，公司旗下“数家”平台，已经可以对语料数据进行结构化分类整合，而紧随其后的“智语”平台，则吸收了拓尔思在自然语言处理和信息检索领域多年的技术积累，其已经可以进行分词和词性标注、语言分类和语言聚类等内容，可以说，拓尔思这些平台已经成为语言的加工厂，经过这些平台的加工后，机器就可以通过这些机器人适配的语言进行认知、学习了。

除了拓尔思，博彦科技在语言加工领域，也同样有着自己的业务。2月10日，博彦科技在投资者互动平台上称，公司有智能聊天机器人方面的解决方案，有能力为机器提供语音训练相关服务。

这句话也可以翻译成：我可以，也很会给机器喂饭。

事实上，博彦科技在语料这条产业链中的地位，有点像医药中的CXO，客户在研发过程中，可以将需要加工的语音、杂乱的语言文字等部分交给博彦科技，博彦科技凭借其经验和专业能力，进行标注、归类。如果客户有需要，公司也可以协助公司完成相关的机器语义训练。

作为这一领域的老牌企业，此前，博彦科技已与微软合作了长达二十多年，这也意味着在机器训练领域，博彦科技已积累了长时间的经验，随着聊天机器人时代的到来，博彦科技的相关订单或将迎来爆发。

当然，笔者所列举的食材提供者、加工者相关公司并不完全，实际上，除了这些公司，汉王科技、海天瑞声、科大讯飞等公司在语料加工领域也有着多年的技术积淀，但这些公司或前期涨幅过大，或总市值过大、涉及领域实在过多，在这里就不做重点介绍了。其实在语料加工领域，这些公司的业务也多集中于数据标注、模式化、训练等内容，本质上也是一个做饭的活。忽略二级市场因素的话，事实上未来这些公司在语料加工领域，也有望有所作为。

可以看到的是，单单文字领域的机器学习，就需要一系列的基础数据积累、加工、训练等工序，这部分的市场，随着类ChatGPT软件的不断开发，将在未来几年呈持续爆发之势。想象空间十分广阔。机器吃饭，产业链喂饭并享受丰厚回报的时代，或许真的要到来了。

原文标题 : ChatGPT也会“饿肚子”？