会撒娇有情感，小米声学语音技术重磅升级！

2020-06-23 11:15

近日，小米发布了小爱音箱Art，这款音箱采用全新的金属机身，机身扬声器开孔被设计成0．7mm厚度的金属饰板，可谓功能与质感兼具。小米小爱音箱Art通过一颗2．5英寸的全频扬声器，让声音的细节呈现得更加自然。

作为小米推出的第9款智能音箱，小米小爱音箱Art在技术上也全面升级，搭载第三代小爱同学，并支持情感化语音交互、全屋播放及就近唤醒。通过这款音箱得以看出，小米的声学语音技术已经实现全面自研，并在自研部分领域持续。

情感化语音交互：通过迭代声学模型，支持情感TTS

对于智能设备而言，实现情感化语音交互是一项挑战。＂情感＂本身就是主观的、多样的感受，一种情感可以有多种呈现形式，更适合人与人的面对面对话。情感化语音交互对技术要求较高，要技术方、数据方、质检方等多方对情感浓度、情感诠释方式等标准达成共识，将较主观的情感音素统一化、标准化。

随着人工智能技术的发展，在实现人机对话的基础上，各大厂商都在情感化语音交互的领域探索。为了让机器加入情感元素，小米AI实验室在＂情感数据量有限＂的前提下，通过不同声学模型、不同声码器组合最终上线自然、拟人效果的情感TTS，成为业内首家情感化TTS大规模落地的企业。

通过小米AI实验室的不断深耕，此次小米小爱同学Art全面支持情感化语音交互，基于有限但类型不同的情感音频数据（如开心、关心、害羞、惊讶等），通过不同技术训练并迭代声学模型，最终支持情感TTS合成并实现＂小爱同学＂音感化、拟人化。

未来，小米语音将升级此技术――支持情感TTS实时合成。从下图中可以看出，在大数据集的预训练模型基础上，利用目标说话人的中性情感数据对网络进行微调，得到目标说话人的中性情感模型；在此基础上用带情感的小批量数据对模型进一步微调，最终得到不同情感的模型，最终实现情感合成。

在国内语音助手行业中，小米首次实现情感化TTS的大规模落地，未来将打造情感更加丰富的＂小爱同学＂，为用户提供多元化的语音交互体验，为IoT设备增加更丰富更立体更逼真的语音交互体验。

语音支持全屋播放：立体声组合同步播放相同音频

小米小爱音箱Art，是首款可以实现语音支持全屋播放的设备。用户直接对小爱同学说＂全屋播放XX＂，无需提前在App端进行手动设置，即可实现一句话语音交互，为用户提供了更便捷的使用方式。

要实现这一功能，音箱需要具备AIoT放音的技术。小米AIoT放音的自研技术在攻克无线网络抖动、晶振时钟漂移以及弱网下数据不可达等一系列技术难题后，将不同音箱播放声音的同步优化到微秒级别，同时还实现了在不同型号的音箱之间的数据同步，提供更细腻的音质和宽广的声像。

由这张图可见，立体声支持APP创建组网，才能进行语音指令和APP操作播放，全屋播放同时支持语音指令和APP创建组网。

立体声功能同时支持语音指令和app操作播放，云端音频流下发至音箱A，音箱A将立体声分离为左右声道，音箱A自己播放左声道音频并将右声道音频流下发给音箱B，由B音箱播放右声道，精准的同步技术保证音箱A和B同时播放立体声的左右声道音频。全屋播放功能支持语音指令和app创建组网，音频流下发至音箱C，音箱C将音频流混合为单声道信号并下发给组内其他的音箱设备同时播放，不区分声道，可支持多个设备。

1 2 下一页>