认知智能堪比魔法：回顾2021的重大突破

2022-01-11 15:21

作者丨云昭

【51CTO原创稿件】随着人工智能解决方案越来越广泛的应用，仅仅在视觉、听觉、触觉等层次的感知，已经满足不了社会大众对于“真正智能”的期望。认知智能，被视为人工智能热潮能否进一步突破天花板，形成更大产业规模的关键技术。

认知智能的目标就是能模拟人脑的思考过程，具有对数据和语言的理解、推理、解释、归纳、演绎的能力，让人工智能真正“智能”。这就使得 AI 赋能更多大规模场景成为可能，如智能机器人、无人驾驶、无人机、AR／VR、个性化推荐等智能服务等。

一方面，计算机视觉、语音识别等感知技术纷纷出现瓶颈，比如图像识别方面的自适应性和泛化能力不足，医学影像领域的三维重建、AR／VR 领域与环境有效进行交互的性能不足，语音识别领域的语义多样性等问题，推动着智能从感知迈向认知。另一方面，自然语言处理、智能对话、智能推荐等认知智能技术呈现出多模态、预训练大模型等研究热潮。

另外，如何通过 AI 技术手段达到降本、增收、提效、安全的智能化升级，已经成为各行业的切实诉求。

回顾过去一年，预训练大模型风起云涌、智能推荐与搜索技术依旧火热，脑机接口、虚拟主播成为新的风向标，竹间智能、第四范式、澜舟科技、智源研究院、明略科技等一批科技企业带来了很多有关认知智能技术商业落地的思考。

可以说，2021，是认知智能发展与产业数智化转型开始深度融合碰撞的一年。各大人工智能领域的玩家也都纷纷拥抱新一代的认知智能技术。

专注电商领域的「乐言科技」，推出的第四代客服机器人系统“乐语助人”，具有自动应答、能深度训练对话和拟人化客服接待等特点，为商家提供自动接待买家咨询、智能推荐、智能营销、智能质检等一站式电商智能客服解决方案，目前已服务两万多家电商客户。

7 月，中国人民大学联合智源研究院，推出悟道“文澜”。它具备强大的视觉－语言检索能力和一定的常识理解能力。在“文澜”多模态模型的基础上，研发团队还开发了应用《AI 心情电台》，可以为图像搭配符合意境的歌曲。

9 月，第四范式与人民日报社正式签约，共同打造新媒体主流算法，在保证海量内容与用户个性化需求精准匹配的同时，实现主流媒体优质内容的传播，推动传媒行业在 AI 时代的转型与创新。

科大讯飞推出的飞鱼系统集成了科大讯飞核心语音识别、语义理解技术，并提供丰富的车联网应用场景，供使用方根据场景需要进行定制开发，通过合理的场景交互逻辑设计，可以方便使用的同时又避免产生相应的风险；同时，科大讯飞通过声纹识别、多模声源定位等技术，可以将声音锁定在某个特定人，或者某个特定发音方向，从而可以很好地保护使用安全。

百分点科技提出“符号主义”引导下的认知智能行业落地新范式。它首先构建出该领域业务的本体框架，然后再结合深度学习和样例数据细化知识图谱的本体和事实数据，并根据知识图谱应用中的反馈信息不断调整和优化。

基础研究上，知识图谱被认为是最有期望将感知智能推向认知智能的关键。知识图谱可以帮助企业更好地完成知识的积累、传承和复用，有力解决知识资产开发利用的难题，因具备优异的普适性，可做到跨行业应用，助力企业不断实现创新突破，向着智慧型企业迈进。

整体看，知识图谱目前分为通用知识图谱和领域知识图谱。在语义搜索、推荐系统，问答系统等应用场景中发挥了很大的作用，它正在金融、能源、医疗、制造、零售等各行业领域的场景中发挥影响力。

由于这种方法知识表征简单和具有知识的大规模性，在语义搜索中得到很好的应用。因此谷歌、阿里、腾讯、竹间智能、百度智能云、海致星图、百分点科技、明略科技等一众研究机构纷纷针对知识图谱开展了大量的应用和研究工作。

与此同时，图神经网络（GNN）将深度神经网络从处理传统非结构化数据（如图像、语音和文本序列）推广到更高层次的结构化数据（如图结构）。大规模的图数据可以表达丰富和蕴含逻辑关系的人类常识和专家规则，图节点定义了可理解的符号化知识，不规则图拓扑结构表达了图节点之间的依赖、从属、逻辑规则等推理关系。可以说图神经网络是对机器学习进行智慧赋能最重要的落地路径。

最后，多模态、大模型预训练网络有望成为 AI 领域的一个研发范式。例如， 7 月，中国人民大学与智源研究院从视觉和语言的关系出发，利用互联网产生的 6．5 亿成对的图片与文字，用自监督的任务完成一个目前最大的中文通用图文预训练模型悟道？文澜，由此去初步探索 AI 在多模态环境中学习语言的可能性。据官方介绍，文澜 2．0 实现 7 种不同语言的生成和理解，刷新了创下多语言预训练模型的最高记录，在图文检索、图像问答等任务上达到了世界领先水平。

盘点 2021，有哪些值得关注的认知技术落地场景呢？自然语言处理、智能人机交互、智能搜索推荐等成为今年各大 AI 企业的强势发力点。

NLP 作为人工智能皇冠上的明珠，微软、谷歌、腾讯等业内巨头纷纷发布前沿的硬核成果。

ACL2021 大会上，微软研究院发表了跨语言命名实体识别、代码搜索、音乐生成、Hi－Transformer、预训练模型、语义交互等 6 大研究成果。其中，Hi－Transformer 能够处理 Transformer 由于速度和显存限制而无法处理的较长文档，模型效果引起研究者的注意。

腾讯看点和阿尔伯塔大学的研究者提出了一种简单但高效的预训练方法：Lichee。它是一个多模态内容理解算法框架项目，其中包含数据增强、预训练引擎、常见模型以及推理加速等模块。利用多种粒度的输入信息来增强预训练语言模型的表示能力。Lichee 在腾讯看点、腾讯视频、内容管线、QQ 等业务场景均有落地，并平均减少标注样本量 40％。经过多次实践迭代，可以大幅缩短信息流内容理解需求的研发周期提升人效。

腾讯 AI Lab、香港中文大学研究出一种用单语记忆实现高性能神经网络翻译的方法。该研究提出了一种新框架，该框架使用单语记忆并以跨语言方式执行可学习的记忆检索。由于能够利用单语数据，该研究还证明了所提模型在低资源和领域适应场景中的有效性。

爱奇艺深度学习云算法团队联合慕尼黑工业大学的研究者提出一套名为 I2UV－HandNet 的高精度手部重建系统，通过「看」单目 RGB 人手图片即能实现高精度 3D 重建。该技术有望应用到爱奇艺下一代 VR 设备中，从而减少对手柄的依赖，实现与虚拟世界的高质量对话，打造出更轻、更快和更舒适的 VR 设备。同时，手势重建、交互技术目前也同步在爱奇艺其他业务场景和硬件终端进行落地探索。

来自 DeepMind、谷歌的研究者展示了机器学习可以用于从混合整数规划（MIP）实例数据集自动构建有效的启发式算法。在实践中经常会出现这样的用例，即应用程序需要用不同的问题参数解决同一高级语义问题的大量实例。

过去的两三年里，预训练模型在自然语言领域得到非常广泛的重视，各大公司学校都开展了预训练模型的研究，趋势就是预训练模型越大越好。

但也存在一个问题，就是模型越大训练的成本就越高，在提供服务的时候也对客户的机器设备能力要求非常高，从而导致很多硬件能力低的中小企业用不起这些重量级预训练模型。基于这一痛点，澜舟科技一直在考虑是否能把模型做得小一点，提高训练速度的同时也降低使用成本，名为孟子的轻量化预训练模型应运而生。

孟子轻量化的预训练模型是利用大规模的语料库，以无监督的方式训练一个大规模的语言模型，这个语言模型输入一个句子或一个片段，基本上可以定义出每一个词和每个句子的语义，可以应用在机器翻译、问答搜索等场景。“在预训练基础上，澜舟科技开发了新一代的机器翻译、文本生成和行业搜索引擎等技术，并通过产业合作实现了技术落地。”

大规模有监督数据的技术红利逐渐减弱，AI 新基建需要更低的研发与部署成本，通过预训练与自训练平台，最终还要沉淀成标准化、低成本复制的模型，并与产业进行更深度的融合，挖掘出更多降低人工成本的新应用点。

可以说，当下 NLP 处于一个美好的时代，虽然还有很多问题没有解决，但已经有很多成功的商业应用。随着面向 NLP 的大规模语言模型的工程化落地，将打开数字化转型的新阶段。

2021，阿里技术团队在双十一的搜索与推荐场景中，使用深度增强学习与自适应在线学习，用户点击率提升 10－20％。通过持续机器学习和模型优化建立决策引擎，对海量用户行为以及百亿级商品特征进行实时分析，帮助每一个用户迅速发现宝贝、为商家带来投缘的买家，提高人和商品的配对效率，进而可以极大提升用户购物体验。

字节跳动技术团队结合云能力，使得火山引擎进一步丰富了资源生态的灵活性以及算法效果的个性化，同时也解决了本地包大小问题，做到资源的动态拉取和使用；配合强大的运营平台可以更贴切地为企业做到个性化定制服务。

58 技术团队则在分类信息业务背景下，在搜索推荐能力建设上做出了有建设性的关键实践，例如业务联动的综合排序框架，多通道的深度学习模型等。在当下产业化升级的浪潮中，大大提升了不同需求的用户使用体验和点击转化率。

QQ 浏览器实验室自研了预训练模型“神舟”，这个模型具有百亿参数的训练能力，可以为搜索、推荐、内容理解等多种业务场景带来直接帮助，提升各种自然语言理解算法效果。通过该模型， QQ 浏览器业务中出现的如评论理解、搜索 Query 推荐等 NLP 需求不仅得以满足，还减少了 40％以上所需的标注数据量和相应的研发时间，节省了标注的成本，大大提升了研发效率。

从点击率、转化率、配对效率到业务联动、研发效率和用户体验，智能搜索与推荐的发展，正在以一种无声又惊人的力量改造着社会的方方面面。

对话机器人目前在行业里，一直是认知智能技术最为热门的落地应用。认知智能让机器具备像人一样自然、流畅、有趣的交流逐渐成为可能。智能音箱、智能客服、数字人、智能陪护机器人等产品越来越多的出现在人们的生活和工作中。

9 月，百度发布全球最大规模的对话生成模型 PLATO－XL。在人机智能对话领域，PLATO－XL 全面超越 Facebook、谷歌和微软发布的最新对话模型，中英文人机对话效果全球领先。

11 月，在腾讯数字生态大会云智能专场上，腾讯云小微发布基于新一代多模态人机交互技术的全新数智人产品矩阵，拥有文旅导览、金融客服、多语种主播、手语主播等不同职业身份和技能，可提供定制化角色服务。数智人拥有形象表现力、识别力和感知理解能力，可识别超 34 种语种、方言，拥有超过 46 万垂直行业场景热词库。

哈尔滨工业大学研究团队结合知识图谱与冬奥会主题的内容，构建出冬奥会智能客服机器人，能够满足体育赛事票务查询预订以及交通路线规划的用户需求，实现基于冬奥会知识图谱的多轮对话。

OPPO 推出的“小布”则尝试根据用户的请求文本分析用户当前的情绪状态，并给与用户人性化的回应。比如说用户表达一些与孤独、难过相关的文本时，可以及时理解用户当时的心情，给予相应的安慰。

12 月，“新华社 AI 合成主播首次对话虚拟人”格外引人注意，一位身穿西服、打着领带的 AI 合成男主播，说着极为标准的普通话，做着生动的手部动作，与另一位同样身着正装的 AI 合成女主播进行连线。

除此之外，脑机接口、智能网联汽车也是今年较热门的认知智能的应用场景。

诚如清华知识智能联合实验室主任唐杰教授所说，认知智能想要取得关键性突破，“基础设施还是少了一些”。比如，通用知识图谱的构建就是一项耗时耗力的基础工程。例如在 NLP 领域，形式化知识系统存在明显构成缺失，实体间关系浅；其次是深层结构化语义分析存在明显性能不足。一句话，系统大而不强。

而聚焦在某一特定领域，算法、行业数据、行业专家，这三个要素缺一不可。这就对从业者提出了务实的需求，摒弃“只做 Demo 级演示”、“PPT 式吹嘘”的务虚心态，以长远价值的心态对待认知智能的建设与升级。仅仅在应用层创新还远远不够，底层技术创新才能带来认知智能水平的颠覆性重塑。

近年来，认知智能标准化建设得到了国内外各标准化组织、企业和学术界越来越多的关注。7 月，中国信息通信研究院联合竹间智能发布的《2021 认知智能发展研究报告》显示，当前已经发布和正在研制的各类标准按超过 30 项，涉及国际标准、国家标准、行业标准等多种类别。可以看出通用标准已经起步，但细分到各个应用领域的产品测试标准依旧悬而未解。比如，在智慧城市的实际建设中，仍缺乏科学合理的城市治理规范以及精准高效的模拟推演技术体系等等。

认知智能在实际应用场景中，依旧存在不少亟待解决的问题。例如，在当前复杂城市环境下的情景推演、智能推理与决策技术中遭遇的认知瓶颈（由于经验数据导致的错误归因，会导致犯罪预测算法有种族歧视倾向）；现有模型对常识／客观规律等知识认知的不完备，难以解决开放、动态、真实城市环境下的推理与决策问题。

认知智能是一整套理论、技术和应用系统体系。认知智能的实现，离不开脑科学、心理学、逻辑学、语言学等多学科的跨界融通和共同进步。但多学科的融合进步，存在一定的跨越式鸿沟。但如果仅仅在少数学科中做“烟囱式”的研究，认知智能的水平也必将是不充分的。

从基础研究到商业探索，认知智能在未来几年可能会出现以下四大趋势。

首先，目前知识图谱构建技术开发效率比较低下，主要卡点在于主要依赖人工进行构建，从数据收集、数据清洗到数据比对，再到最后图谱构建等整个流程中，自动化程度低。其次，知识图谱构建工作仍然高度依赖专家的知识输入，目前市面上知识图谱产品普遍具备较强的行业属性，产品通用性差，阻碍了技术规模化应用。

为此，不少厂商已经开始探索平台化的解决方案。例如竹间智能，推出了知识工程的平台化产品 Gemini。基于该平台，用户可自行构建通用知识图谱、行业知识图谱，进行知识管理及知识搜索，大大缩短业务流程中需要人工处理文本的时间，解决企业数据应用难题；第四范式知识图谱（第四范式 KB）将大量专家知识模块化封装进第四范式 NLP 产品，普通业务人员经简单培训即可使用的全流程知识图谱平台，针对不同行业和领域提供知识驱动的复杂应用分析及决策支持。

目前来看，人工智能的发展正在从感知智能向认知智能快速推进中，超大规模的预训练模型成为全球人工智能技术研发的热点和竞争的焦点。腾讯、搜狗、华为、阿里达摩院等巨头轮番霸榜权威中文语言识别评测基准（CLUE）榜单。

值得注意的是，澜舟科技推出的轻量化预训练模型“孟子”，以十亿参数完成了此前百亿、千亿参数模型刷新的纪录，首战登顶 CLUE 榜单。

当然，大模型距离实际落地，还需要很长的路要走，目前需要经过微调、模型压缩成小模型才能发布。通常小模型只有几十兆，在经过软件和硬件的优化以后才能得以顺利应用。

企业的数字化转型和智能化转型的强烈需求加上预训练模型的技术发展，认知智能赛道必然会迎来一个新的飞跃。

以对话机器人为例，目前更多是基于文本信息来鉴定情绪，后续基于声学或视觉特征分析，结合声学和文本的信息更好地理解用户。Apple 发明了一项技术，可以根据用户发出语音请求的音量，实时调整回复用户时的音量；Google 则正在研究基于用户双眼的聚焦判断用户是不是真的在跟智能助手对话等。

随着行业应用的逐步深入，通过某个单点算法创新就能大大提升应用效果的方式已不复存在，需要用全流程、全栈的方式。

落地场景的复杂性以及实际需求的多样性，将会迫使未来的智能应用，将通过产业协同、系统集成，构建成一张精密、庞大、统一的智能网络。

因此，这就需要在沿用、传承计算智能、感知智能相关技术的基础之上，围绕认知科学的发展，推动脑科学、心理学、逻辑学、语言学等多学科共同进步、跨界融通才能完成。

“任何充分发展的科技都与魔法无异”，正如著名小说家亚瑟·克拉克所说。充分发展的人工智能，会如同魔法一般，终将为机器赋予类人的意识。以认知智能为代表的新一代信息技术，必将深刻影响着社会的方方面面。

整体上看，认知智能还处于起步阶段。在科学技术快速更新迭代的今天，如何持续进行协同创新，让人工智能释放能量，真正赋能产业，值得大家拭目以待。

【51CTO原创稿件】

来源：51CTO云昭