看似福音的AI配音，也会邪魅一笑

2018-05-09 10:41

看似福音的AI配音，也会邪魅一笑

在前文字时代，声音曾经是人类唯一的交流工具。由于声音的传播距离非常有限，所以那个时候人类的生存以“部落”为单位，关系十分紧密。后来随着传播媒介的一步步发展，我们开始不再需要彼此近距离交流就能获得大量信息，反而，却开始突然怀念单一的声音带给我们的感觉，这种最原始的媒介承载着人类最充沛的情感。

今年1月份，世界首部利用人工智能模拟人声的纪录片在央视播出，而这部名为《创新中国》的纪录片解说词却全程是由在2013年就“已逝”的声音完成的。这个奇迹的背后是科大讯飞利用语言合成技术成功帮AI模拟出了我国已故著名配音演员，语言艺术家李易的声音。

科大讯飞强劲的语言合成技术让AI模拟的声音成功打动了李易老师的学生、朋友和家人。在AI自然流畅的语言解说当中，似乎还能再见故人的音容笑貌。科大讯飞这项语音合成技术主要由三个步骤构成：

一是输入文本，让机器模拟人对自然语言的理解过程，对文本进行语言处理，主要包括文本规整、词语切分、语法语义分析，然后给出后续步骤所需要的发音提示；

二是规划音段特征，比如音调、音长、音重等等，让机器可以对语言的特有韵律进行处理，使机器模拟的声音更自然并且更准确地传达实际语义。

最后根据前两部分处理的结果进行语音合成即可。通过这几个步骤，AI模拟的声音与人声已经非常相似，即使是最熟悉的人在某些情况下也很难分辨机器人与人声的界限。

AI配音拉动的两驾“马车”

那么这么惊艳的人工智能配音技术，它的边界究竟能够延伸到多远的地方呢？智能相对论分析师杨苏颖就此提出了人工智能配音的两个用武之地。

1、“粉丝经济”向AI配音伸出“橄榄枝”？

“粉丝经济”已经成为现在文娱产业经济增长的主要支柱之一。随着最近养成类偶像节目的火爆，粉丝对明星投入的情感越来越多，随之带动这个群体为明星付费的意愿同样水涨船高。网传范冰冰弟弟范丞丞在新浪微博发布付费阅读的自拍，一夜徒手狂赚几百万（后遭到经纪人否认）。既然，明星的周边如此火爆，何不运用配合人工智能语音合成的VR、AR技术来打造的虚拟范丞丞们，让他们更真实地出现在粉丝的日常生活当中呢？要深挖中国的粉丝潜力，比起像腾讯视频之前在明日之子上打造虚拟二次元偶像“荷兹”，听着现实当中熟悉的偶像声音叫自己起床，陪自己聊天，这样的虚拟真人版偶像或许更能得到粉丝认可。

2、AI配音是音也是“药”

据国外媒体报道，有研究表明，年迈夫妇可能因为一方丧偶而增大死亡率，这种现象被称为“心碎综合症”。这项研究由哈佛大学和威斯康斯大学麦迪逊分校的两位科学家负责，研究结果显示，男性丧妻后“全因死亡率”的概率增大了18%，女性丧夫后“全死因死亡率”的概率增大了16%。并且我们还可以做一个合理推断，在其他丧子或者丧双亲的情况下，这种“心碎综合症”的表现也一定存在，比如在唐山大地震和汶川地震之后。心理学家表示，要想修复这种创伤是非常困难的。但是人工智能配音的AI或许可以做到呢，它能够利用过去已有的音频合成亲人的声音，如果心理医生说的话能够用亲人的声音来传达，也许可以帮助病人更快地走出阴霾。

AI 配音在舞台上也会唱“黑脸”

但是，一切技术都是刀子的翻版，人工智能配音技术解决问题的同时也会引发新的问题，智能相对论分析师杨苏颖认为，这项技术在广泛落地之前还要接受不少拷问。

1、AI盗用声音却能“无罪释放”？

手机里高德地图我们足够熟悉，但大家不知道的可能是其导航应用所采用林志玲声音其实部分是采用了人工智能配音技术后期合成的。那么大家可能觉得语音合成必须得提前去技术公司录制这样一段纯净的声音。

但是事实上，语音合成却对音频质量没有那么高的要求，利用海量的互联网音频也可以实现人声模仿。Google Research软件工程师发表论文《Looking to Listen atthe Cocktail Party》采用的全新视听模型可以在不同噪音之中，把重叠的人声分离出来，形成每一位说话者单独纯净的音频信号。同时，讯飞也提出以全自动无监督方法快速得到单个目标发音人的纯净音库。

之前伯明翰阿拉巴马大学的一项调查表明，如果给予AI的的信息足够多，它可以生成任何人以假乱真的图片或者视频。现在个人的声音已经越来越成为个人身份的标志之一，对个人声音利益的侵害也同肖像一样可能造成个人人格尊严和财产利益上的损失。我们知道明星的形象拥有肖像权，如果他们的照片被他人私自用作商业用途时，他们可以一纸诉状将别人告上法庭维护自己的肖像权。但是目前在我国立法界及学界对声音权的保护却仍无统一定论，如果个人的声音被别人盗用是没有法律能够对其进行保护的。

2、AI配音搅局声纹识别

大家可能听说过声纹鉴定，一般来说人的发声具有特定性和稳定性，虽不能说完全达到了指纹那样精确的程度，却仍然有越来越多国家已经把声纹鉴定作为辨认犯罪嫌疑人的重要手段。

但在GeekPwn2017国际安全极客大赛上，白帽黑客们却上演了一场与声纹识别的对弈。现场5组选手有4组根据《王者荣耀》里英雄妲己的声音样本，利用AI语音合成技术模拟妲己声音通过“声纹锁”的验证，成功欺骗了语音验证系统，这意味着利用个人声音验证身份可能没那么靠谱。

“声纹识别”在现实当中用途十分广泛，离我们最近的有手机声纹解锁，另外，在智能家居产品当中，以及公共安全领域，它也有许多落地点。但是当声纹识别碰上了AI语音合成技术，一场智能的博弈就开始了，一不小心就会打开个人隐私安全的潘多拉魔盒。AI语音合成技术越高明，挟持该技术的人就能越轻而易举的闯入你的生活。

此外，在警察侦查工作中，原本进行声纹分析可以判断说话人的性别、年龄、方言（生活地区）等特征为侦查提供方向和范围，但 AI配音的干扰要求刑侦手段需迅速跟上科技发展的步伐，否则声纹鉴定的有效性就会受到普遍质疑，司法判决的过程也会变得异常艰难，这无疑是为犯罪者提供了另一层保护伞。

3、AI能不能别老和艺术家杠上？

AI配音在《创新中国》中的表现非常令人吃惊，人类激动的眼泪印证了语音合成技术的成功。因此，不禁有人发问，AI配音如果在行业里广泛应用会否取代传统的配音演员呢？配音演员由四字组成，不仅重在“配音”，其实亦重在“演员”。今年年初口碑爆棚的综艺《声临其境》在展示了优秀演员的配音功力同时，也让观众看到在配音间里，配音者不仅仅是提供声音，更要演戏。因为配音必须要符合剧本角色的情绪，甚至包括呼吸的频率都要对得上。

目前要建立机器的情感识别系统已经非常困难，机器深度学习需要大量数据进行量化分析，而人类情感是最难以被量化的存在。所以更别说让机器去生产情感从而进行配音表演。配音演员和演员这两种职业本就异曲同工，所以AI配音取代传统配音演员独立参与影视剧制作是不可能的。

不过，AI配音代替游戏配音和读书配音倒是不错的选择。像四平八稳的纪录片一样，这类配音并不需要调动太多的情感，就算人工智能配音需要存在几种不同的感情色彩，机器学习的量也在可控制的范围之内，不会像影视剧那样复杂。

在AI配音这件事情上，有人拍案叫绝，有人忧心忡忡。技术善论技术恶论的对峙不会停止，但是只要控制的阀门还掌握在人类的手中，一切就不会那么糟。

文｜杨苏颖