实现不间断对话后,微软小冰距离理想中的样子又近了一步
更加自然的全双工语音交互感官
其实我对于此次小冰所具备的智能家居设备控制技能、更加人性化的情感和同理心能力以及独特的「小冰姐姐」模式这三项功能并不感到意外,而真正值得关注的地方是其一次唤醒可进行连续对话。
要知道,目前包括智能音箱在内,绝大多数语音控制设备都采用了「一问一答」的交互方式。理由也很简单,这样的方案允许设备在技术并不足够成熟的前提下,依旧能够可以相对不错的识别准确度。
但这样的人机交互方式所存在的不足之处在于,其并不符合人们自然的交互习惯。从某种角度上来说,即便是它在准确度和回馈速度上都做到了接近完美,但可能也还是更多地停留在「工具」的层面,并非人们理想中人工智能该有的模样。
而对比来看,搭载了微软小冰的 Yeelight 可以实现对话像河流一样不间断进行,在语音交互方式上显然要更自然一些,微软称之为全双工语音交互感官。
不顾想要实现近乎于人与人之间的交流方式,显然并不是一件容易的事情,在前几天的媒体沟通会上,小冰团队也对这背后部分技术特征进行了披露。
首先在基础框架上,微软没有选择面向单个任务的的 Turn-oriented,而是采用了面向对话全程的 Session-oriented。
同时在实际的人机交互过程中,小冰所采用的全双工语音交互技术,在包括边听边想、节奏控制器、对声音场景的理解以及自然语言理解与生成模型等多个维度上进行了探索。
首先它建立了一套预测模型,来实现边听边想。简单来讲,小冰会提前预测你想要表达的完整意思,从而实现更快的响应速度和改口能力。同时在回答你所提出的问题时,可以实现动态回应,通过有选择的将回答分成多段,来减少你的等待时间。
另外,为了让小冰在与人类的对话过程中可以更好的掌握时机和重要内容,它也设置了节奏控制器。当然,人与机器交互时需要它能够很好的实现对声音场景的理解。比如识别你的性别、对指令的正确识别等等。
还有一个重要的技术特征是,小冰拥有自然语言理解与生成模型,从而实现更好的容错性以及基于整个对话对上下文的理解。
综合来讲,在语音交互方式上,微软选择了一条短时间内可能并不容易获得明显效果,但上限更高的技术路径。不难想象的是,未来随着 Turn-oriented 框架走到极致而无法更进一步的情况下,也会有越来越多语音平台加入到这个行列中。
但显而易见的是,早先一步开始布局 Session-oriented 框架的微软已经领先了半个身位。从长远来看,其将获得更高的收益。
回过头来看小冰这个平台,正如我们前边提到的,虽然就目前而言它的整体体验并不那么完美,但其成长上限非常高。一旦未来各方面走向成熟,这个平台或许将最早成为我们理想中的人工智能。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论