AI行业研报：生成式文字后即将爆发生成式音频？

2023-06-08 11:27

作者 | BT财经

来源 | 德意志银行了解更多金融信息 | BT财经数据通

在爆发全球热潮前，人工智能是经过了多年酝酿的。为了正确预测未来的人工智能创新，我们回到源头，研究了人工智能应用的专利和风险投资交易活动。

我们收集了193个世界知识产权组织（WIPO）成员在2012年至2022年期间公布的175072项人工智能专利，分为五大类。对于风险资本投资，我们使用了经合组织（OECD）人工智能数据库2012年至2022年92个经济体的24310笔交易数据。

按绝对值计算，自2012年以来，人工智能领域的风险投资活动和专利数量激增。期间，风险投资交易数量增加了10倍，达到3884笔，2022年的交易价值几乎是2012年的50倍，达到830亿美元。与此同时，人工智能专利数量在2022年增长了7倍，达到近3.7万个。

从风险投资交易和专利来看，过去10年，超过三分之二的人工智能创新集中在交通、工业和消费等行业应用上。

接下来，我们预计生成式音频（generative audio）将在2024年大规模出现，并颠覆游戏和电影制作等行业。

人工智能走出冬眠

随着OpenAI的ChatGPT于2022年11月发布，人们对人工智能的兴趣激增，不仅是普通人，企业也是如此。2022年，公司文件中提到“人工智能”的次数超过71.5万次，而2020年仅为13.5万次。根据我们的调查，到2023年4月，41%的美国人已经听说过ChatGPT，而近60%的人表示他们的工作已经在某种程度上开始使用ChatGPT。

此外，在5月18日的新闻中，ChatGPT在美国发布了第一个应用程序版本后，现在可以在iPhone上使用。谷歌还于5月5日宣布，将开始推出集成到搜索产品中的生成式人工智能工具。在进一步研究之前，我们先对人工智能进行简单的定义——人工智能是一种基于机器的系统，人类给出一组给定的目标，它可以作出预测、建议甚至决定，从而可能影响现实或虚拟环境。

人工智能其实已经酝酿了好几年。自2012年以来，与人工智能相关的风险投资交易活动和已公布的专利一直在悄然飙升。例如，风投数量从2012年的332笔增长到2022年的3884笔。2022年，风投交易价值达到830亿美元，高于2012年的18亿美元。与此同时，自2012年以来，人工智能方面的专利数量增加了7倍。

人工智能行业的进入门槛一直在降低，这刺激了该领域的商业创新。例如，自2018年以来，图像分类系统的训练成本降低了64%，而训练时间减少了94%。包括OpenAI、Anthropic、Stability AI、A121 Labs、Midjourney和Cohere在内的众多初创公司和风投公司也纷纷涌现。据报道，Anthropic最近在C轮融资中筹集了4.5亿美元，参与融资的有Alphabet、赛富时（Salesforce）和Zoom。此外，一家伦敦的人工智能公司Builder. Ai在最新一轮融资中筹集了2.5亿美元。

为了正确预测人工智能即将到来的情况，我们还研究了该领域的专利。我们预计，获得风投的公司大约需要两到三年时间才能将产品推向市场，甚至需要更长的时间等待专利批准，如七至十年。就专利而言，在公司专利获得保护后，他们则需要营销，选择商业伙伴等，这大概需要一到三年时间。

通过世界知识产权组织Patentscope，我们收集了193个该组织成员在2012年至2022年期间公布的175072项人工智能专利条目，这些专利分为五大类，其中包括部门应用（sectoral applications）、服务平台（horizontal platforms）、自动化机器（autonomous machines）和半导体（semiconductors）。在风投方面，我们使用的是经合组织人工智能数据库涵盖的92个经济体的24310笔交易。

1. 人工智能景观——将创意带入生活

股票市场反应如何

迅速采用ChatGPT和其他新的人工智能的公司股价飙升。例如，2023年1月31日，人工智能软件企业C3. ai推出了集OpenAI、谷歌、学术研究等人工智能技术于一体的“生成式人工智能产品套件”。当日，该公司股价上涨近22%，自今年年初以来已累计上涨143%。

人工智能音频和语音识别软件公司SoundHound的股价今年迄今已上涨66%。

不仅仅是人工智能软件公司，人工智能几乎影响了价值链上的所有公司。英伟达是一家半导体公司，其生产的计算机芯片可以运行人工智能模型，该公司股价上涨了110%。在大型科技公司之间的人工智能竞赛中，Meta也表现出色。

资金流向人工智能

2022年，全球对人工智能的风险投资达到830亿美元的峰值，高于2012年的18亿美元。Databricks和麻省理工学院发现，大多数公司已经开始广泛部署人工智能。在样本中，到2022年未使用人工智能的公司比例不到6%。

企业将从人工智能增长中受益

多年来，人工智能研究一直局限于学术界，如今正被应用于商业领域。学术界是先行者，从学术发表到获得专利通常需要15年的时间。

然而，越来越明显的是，人工智能创新爆发的时机已经成熟。从2012年到2022年，49%的风投交易是在过去三年达成的。同样，我们的数据库中有52%的人工智能相关专利在三年内发布。

2. 应用领域：人工智能将在2023年成为主流

亚马逊创始人兼执行主席Jeff Bezos表示：“我们现在正在用机器学习和人工智能来解决问题，现在发生的这一切犹如科幻小说里描述的内容。”

过去10年，与人工智能相关的风投交易中，近五分之四是在行业应用领域。另有8%发生在自动化机器和汽车领域，还有13%发生在半导体领域。人工智能相关专利的比例也类似。

行业应用：人工智能不局限于一个行业

目前，79%的风投交易和61%的专利发生在我们认为的“行业应用”中。根据我们的定义，这包括消费、工业、资讯科技、运输、医疗保健、金融服务业。

从2012年到2022年，风投交易数量从270笔增加到3006笔，增长了10倍多。2022年，交易总额达到620亿美元，远高于2012年的13亿美元。在这些领域发布的专利也在蓬勃发展。自2012年以来，相关专利数量增加了6倍。拥有最多专利的公司都是公认的科技巨头，如IBM、三星（Samsung）、英特尔（Intel）、LG电子（LG Electronics）和高通（Qualcomm）。

服务平台：AI工具

自2012年以来，我们看到服务平台（horizontal platforms）的专利数量增长了近6倍，包括人工智能主核（AI core）、自然语言技术（natural language technology）、人工智能自动化平台（AI automation platforms）、计算机视觉软件（computer vision software）。服务型应用（Horizontal applications）是人工智能开发和部署的重点模块，拥有这类专利的公司包括AT&T、IBM、LG电子、百度以及老牌科技企业。

自然语言处理（Natural language processing）是一种用于大型语言模型（LLMs）的人工智能工具，随着ChatGPT的出现而变得流行。自然语言处理的一些例子包括翻译、自动纠错、自动文本摘要、聊天机器人，以及金融领域的信息需求等处理方式。

计算机视觉涉及使用人工智能来分析视觉数据，并做出有意义的预测，包括面部识别、地理空间分析等。

微软的Inner Eye技术已经可以帮助检测肿瘤和异常细胞。在他们的最新研究中，微软展示了其技术如何帮助临床医生。在计算机视觉专利数量最多的五家公司中，有两家是中国公司，分别是百度和华为。

谁还需要驾照？自动驾驶已经到来

在过去十年中，8%的风投交易和16%的专利都发生在“自动化机器”领域。这类技术涵盖两个关键领域，分别是自动驾驶汽车和智能机器人。在过去的十年里，这个领域受到了很多关注。这在很大程度上与特斯拉取得的成功相吻合，特斯拉一直在试验自动驾驶汽车系统。

从2012年到2022年，自动化机器领域的风投交易数量从22笔增加到363笔。智能机器人就属于这一类。这些机器人能够在不需要人类干预和输入的情况下进行一定程度的操作。人工智能通常用于协助机器人机型训练和适应。三星、LG电子、英特尔以及中国的大疆公司和滴滴等公司在机器人专利方面地位稳固。

几年来，自动驾驶汽车也一直是人们讨论的焦点。除了特斯拉之外，其他公司也在扩大对自动驾驶汽车所需技术的研究和投资，因此，风险投资和专利申请的大幅增加很可能是在这个背景下发生的。

半导体芯片

英伟达首席执行官黄仁勋表示：“很明显，人工智能将影响每一个行业。我认为每个国家都需要确保人工智能是其国家战略的一部分，每个国家都会受到影响。”

半导体占人工智能相关风投交易的13%，占已公布专利的4%，包括处理器设计（processor design）、边缘人工智能软件（edge AI software）、智能传感器和设备（intelligent sensors & devices）。

从2012年到2022年，半导体领域的风投交易从40笔增加到515笔。2022年，该领域交易总额达到94亿美元，高于2012年的2亿美元。同样，从2012年到2022年，该领域专利数量增长了7倍。

自20世纪70年代以来，芯片经历了快速的创新，芯片性能每隔几年就会翻一番。生产商必须跟上发展的步伐，否则就有被甩在后面的风险。随着技术变得越来越复杂，新工具是必要的，这正是人工智能可以发挥作用的地方。

3. 2024年及以后的新机遇

生成式音频可能是下一个大热门

人工智能现在能够根据不同语言、口音和方言的文本输入创造人类的声音和合成音频。它使用了在ChatGPT中流行的生成式人工智能。

从2020年第一季度到2022年第四季度，提到“生成式音频（generative audio）”的公司文件数量增加了13倍以上。

随着音乐和声音研发的深入，我们可能会看到新竞争者的爆炸式增长。很快，人们可以输入文本或图像来生成音频内容，而不需要音频专家或计算机专家。

这可能会影响游戏、通信、音乐、新闻和医疗保健等一系列领域。拥有生成式音频相关专利最多的公司包括索尼（Sony）、亚马逊、华为、字节跳动、Adobe、苹果和腾讯。

可以生成什么音频？

生成式音频分为四个主要类别，包括合成声音（synthetic voice）、语音互动（speech interaction）、音乐生成（music generation）和音频编辑（audio editing）。首先，通过深度学习，人工智能可以高质量地合成真实的人声，包括音高、音调和节奏。语音互动包括虚拟助手等技术，例如苹果的Siri和亚马逊的Alexa。随着技术的发展，人类与人工智能之间的“自然”互动可能会越来越多。

音乐生成技术可以轻松地创造出种类繁多的新音乐。例如Spotify的DJ和Aimi Studio。人工智能音乐已经对音乐产业构成了挑战。

最后，音频编辑可以使用人工智能来提高音频录制质量。