从语音识别到语义识别,中间还有多长的路要走?
最近科技圈刮起一股收购风,前面博通收购高通还在如火如荼的进行,这周苹果就宣布收购音乐识别软件Shazam。Shazam这个软件,通过手机麦克风收录音频片段,能够识别音乐、电影、电视节目甚至是广告。那么苹果公司整合这项技术做什么?很大可能是为了其人工智能助理软件Siri。
Siri使用自然语言处理技术,是AI技术的一大体系,而随着近年定义和产业分工越发精细,语言识别渐渐分成了语音识别和语义识别两个支系。语音和语义虽只有一字之差,却有很大的不同。
打个简单的比方,语音识别相当于是人的耳朵,而语义识别则是大脑,语音识别帮助机器获取和输出信息,那么语义识别则是对这些信息进行识别加工。
在这里,小编举个例子来帮助大家更好的理解上面的话:
爸爸没法举起他的儿子,因为他很重。
问:谁重?
爸爸没法举起他的儿子,因为他很虚弱。
问:谁虚弱?
可以看到,这两个句子结构完全一致,后面的“他”指的到底是爸爸还是爸爸的儿子?这对于我们来说轻而易举,因为我们有能清楚的通过我们积累的知识知道:爸爸举不起儿子,要么儿子太重,爸爸举不起;要么儿子不重,但是爸爸力气小,比较虚弱,因此举不起儿子。
但是对于一个只会语音识别的机器来说,它不会去思考句子中的“他”到底指的儿子还是爸爸,事实上,它也“想不清楚”。但是通过语义识别,机器会对听到的信息进行加工理解,从而给出正确的答案。
与语音识别相比,显然语义识别显然要更深一个层次,用到的技术也更为复杂。
本文中,小编就给大家介绍一下人工智能中,自然语言识别这一重要支系。
语音识别发展史
语音是最自然的交流方式,自从1877年爱迪生发明了留声机,人们就开始了与机器的交谈,但是主要还是与人交流,而非机器本身。
1950年,计算机科学之父阿兰·图灵在《Mind》杂志上发表了题为《计算的机器和智能》的论文,首次提出了机器智能的概念,论文还提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了,这就是后来鼎鼎有名的人工智能图灵测试。
到20世纪80年代,语音识别技术能够将口语转化为文本。
2001年,计算机语音识别达到了80%的准确度。从那时起,我们就可以提取口语语言的含义并作出回应。然而,多数情况下,语音技术仍然不能像键盘输入那样带给我们足够好的交流体验。
近几年来,语音识别又取得了巨大的技术进步。科大讯飞董事长刘庆峰在一次演讲中,在演讲的同时使用着最新的智能语音识别技术——可以让他演讲的内容实时以中英文双字幕的形式呈现在大屏幕上,反应迅速、几乎没错。识别精确度超过95%。随着这项技术的进步,语音优先的基础设施变得越来越重要,亚马逊、苹果、谷歌、微软和百度都迅速部署了声音优先软件、软件构建快和平台。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
-
10 中国AI的“六便士”时刻
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论