苹果申请新专利 Siri可解读用户情绪

2019-11-19 11:19

据苹果14日提交的最新专利申请文件显示，苹果正在开发一种全新的方法，通过在未来版本的Siri或者其他系统中添加面部分析功能，来帮助Siri解读用户需求。这意味着Siri将来可能不仅懂得语音识别，在与用户进行对话时，它甚至可以启用设备的FaceTime摄像头，来分析用户面部表情，解读用户情绪。

苹果官方称，申请这一专利的目的是减少语音请求被Siri误解的次数，试图通过分析用户情绪来进一步提高准确度。苹果还提到：“Smart Apps可以代表用户执行操作，以回应用户的自然语言需求，但在某些情况下，可能会与用户想要的操作并不符合。但是现在我们可以对视频输入中的面部图像进行分析，通过识别形状或运动来识别特定的肌肉或肌肉组织是否被激活”。

目前人工智能较为成熟的应用之一就是图像和语音识别。图像识别是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。得益于数字化时代带来的海量数据，加之机器学习方法的广泛应用，计算机视觉发展迅速。以往许多基于规则的处理方式，都被机器学习所替代：机器自动从海量数据中总结归纳物体的特征，然后进行识别和判断。其已经广泛应用到拍照识物、画面增强、人机交互等各种领域，包括典型的相机人脸检测、安防人脸识别、车牌识别等等。

神经网络图像识别的发展，各类视觉识别的任务精度都得到了大幅提升。在全球最权威的计算机视觉竞赛ILSVR上，千类物体识别错误率在2011年时还高达25．8％，从2012年引入深度学习之后，后续4年的错误率分别达到了16．4％、11．7％、6．7％、3．7％，出现了显著突破。现在，人脸识别甚至能做到误判率低于百万分之一。

语音技术主要包括语音合成和语音识别两项关键技术。让机器说话，用的是语音合成技术；让机器听懂人说话，用的是语音识别技术。语音识别技术是指将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列，与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。此外，语音技术还包括语音编码、音色转换、口语评测、语音消噪和增强等技术。

科大讯飞作为智能语音识别领域的领跑者，在技术应用中讯飞翻译机3．0支持和7个领域的专业人士充分对话，覆盖医疗、外贸、体育、金融、能源、计算机、法律等七大热门行业的AI翻译，同时支持粤语、四川话、东北话、河南话等中文方言与英语的互译，普通话与维语、藏语的即时互译。另外，即使是方言口音的英语，讯飞翻译机3．0也能识别。

语音识别技术从客服到智能家居，再到移动手机端和车载环境等多方面具有广泛的应用场景。但语音识别还是有一些缺点的。语音随时间而变化，所以必须使用生物识别模板。语音也会由于嗓音沙哑、情绪压力或是外界环境影响而变化。语音识别系统比指纹识别系统有着较高的误识率，因为人们的声音不像指纹那样独特和唯一。

目前图像与语音识别技术其很大程度上还是处于识别和归类的层面，想要透过表层的识别去进行深层的情绪认识和理解，进而优化人机交互的体验，尚需时日。