真人主播危机？虚拟主播成市场新晋“网红”

2019-11-21 10:26

在今年天猫双十一预售日，李佳琦再次刷新了直播记录，39款商品秒光，4个多小时累积突破3000万围观。长达4小时的超负荷直播，也让很多企业想到“虚拟主播”代替真人主播这一新的发展机遇。

2018年，搜狗和新华社联合推出的全球首个AI合成主播的诞生，掀开了“AI＋虚拟主播”的神秘面纱，一时间，嗅到“科技红利”的市场各方开始蜂拥而上。2019央视网络春晚推出AI虚拟主持人团队，今年两会期间，新华社推出AI虚拟主播“新小萌”，人民日报推出AI虚拟主播“小晴”。回看这两年市场热潮，总让人有一种错觉，仿佛回到了当初世界首个虚拟主持人诞生时。不过，相比当初“昙花一现”的虚拟主播，这次新增的“AI”元素，或许会为市场带来更多的机会。

虚拟主持的诞生

真人主播危机？虚拟主播成市场新晋“网红”

自工业革命起，以机器代替手工劳动就成了人类努力的方向。随后，第一台计算机的发明，让机器开始升级为“人工智能”。步入互联网时代后，“人工智能”更是加快了替代手工劳动的步伐，并从基础的体力劳动层面渐渐转向创意、创作层面。在这一时代，更是诞生了诸如旷视科技、商汤科技、依图科技、云从科技、极链科技这样的优质初创人工智能企业。

早在2001年，英国PA New Media公司曾推出世界上第一个虚拟主持人阿娜诺娃，一个只有头部的动画，可根据新闻脚本快速制作视频，并可24小时持续播报。此后，日本推出了寺井有纪，中国推出了小龙，美国推出了薇薇安，韩国推出了露西雅，市场上虚拟主播的地位一片欣欣向荣。但阿娜诺娃没多久就退出了舞台，曾经吹捧过她的媒体纷纷关闭旧栏目，开设新栏目，换上真人主持，好像阿娜诺娃从未出现过一样。

直至今日，再回看当年的这波虚拟主持人热潮，仍有几点值得反思：

1．技术的成熟是产品出现的关键，但产品的成熟度如何，是由市场评判的。市场之所以会追捧虚拟主持人，根本目的是为了节省制作成本，提升制作效率。但早期的虚拟主持人，从整个制作过程来看，成本其实远超聘请一位专业真人主持。

2．虚拟主持人具有行业特殊性，对语音、表情、肢体等都有很高的要求。相比其他行业，主持人最基本的要求就是口才。也就是说，虚拟主持人要达到与真人主持一样的口才，语音识别和自然语言处理的准确率都要求极高。显然在这方面，早期虚拟主持人还没有这种技术。其次，要让虚拟人物播报呈现出自然状态，就必须解决口型匹配、表情匹配，乃至肢体动作匹配等问题。最后，在制作播报视频时，一定要快、稳、准。新闻行业是一个极为注重时效性的行业，如果制作一个视频就需要花费几天乃至几周的时间，那虚拟主持人取代真人主持显然是伪命题。

3．虚拟主持人是否一定要像真人，这是在做产品之前必须明确好的方向。早期的虚拟主持人都格外在意“像真人”，似乎这是一条铁律。这很大程度上，源自在当时环境下，主持人大多与新闻播报捆绑，像真人才更有可信度。但从长远发展来看，“像真人”真的是必须的吗？

合成技术原理

其实所谓的“像真人”，不外乎是运用“AI合成”技术。“虚拟主播”通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征，运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。

该项技术要能够将所输入的中英文文本自动生成相应内容的视频，并确保视频中音频和表情、唇动保持自然一致，展现与真人主播无异的信息传达效果。但在此之前，出现在大众媒体上的虚拟主播，多半只有声音，或者匹配一个量身定制的虚拟形象，比如微软小冰在东方卫视担任天气预报员就是如此。

要实现这样的效果，两大要求缺一不可。其一是高逼真度。要能够自动生成语音、表情、唇动等信息完全一致的自然视频，并已达到商用级别。其二是低成本的个性化定制。小数据的学习模型，使用少量用户真实音视频数据，快速迁移生成虚拟的分身模型，快速定制出高逼真度的分身模型。最后，使用时输入一段文本，即可生成与真人无异的同步音视频。

除此之外，语音合成引擎和图像生成引擎也是重要的两点。在语音合成引擎中，基于用户少量音频数据，使用语音合成技术，快速学习用户音色、韵律、情感等多维度特征，建立输入文本与输出音频信息的关联。

图像生成引擎，则是使用人脸识别、三维人脸重建、表情建模等技术对人脸表情动作进行特征学习和建模，建立输入文本、输出音频与输出视觉信息的关联映射，生成输出分身视频。

最后，两大引擎协作打磨，最终才能实现“AI合成主播”，能够逼真模拟人类说话的声音、嘴唇动作和表情，并将三者自然匹配，做到惟妙惟肖，让机器以更逼真自然的形象呈现在用户面前。

小结：

和真人主播相比，“虚拟主播”能够不知疲倦地工作24小时，同时还掌握多国语言，大大提升效率、降低成本。甚至写好文字稿，“ 虚拟主播”就能即可播送了，还不会出现口误或NG，更是让个性化内容生成的门槛大为降低。娱乐、医疗健康、教育、法律等多个领域和场景，无一不适用。未来，这项技术或许在虚拟教师、虚拟医生，虚拟客服等需要人类参与的内容表达场景，都能发挥出其价值。