AI同传现场掉链子,人工智能的理解能力还需努力
隐马尔可夫模型(HMM)解决统计数据之外的语言问题
然而,在参考腾讯AI同传的失误后,我们发现,仅仅增加数据量还是不够的,在现实生活中,我们也会遇到零概率或者统计量不足的问题。
比如一个汉语的语言模型,就足足达到20万这个量级。曾有人做过这样一个假设,如果刨掉互联网上的垃圾数据,互联网中将会有100亿个有意义的中文网页,这还是相当高估的一个数据,每个网页平均1000词,那么,即使将互联网上上所有中文内容用作训练,依然只有1013。
为了解决数据量的问题,我们提出了隐马尔可夫模型(HMM)。实际应用中,我们可以把HMM看作一个黑箱子,这个黑箱子可以利用比较简洁的数据,处理后得出:
1.每个时刻对应的状态序列;
2.混合分布的均值和方差矩阵;
3.混合分布的权重矩阵;
4.状态间转移概率矩阵。
看起来可能比较复杂,简单点说,这个模型可以通过可观察的数据而发现这个数据域外的状态,即隐含状态。也就是说,我们可以凭借一句话,来探索出这句话后的隐含的意思,从而解决一些微妙的语义问题。
如上图所示,这个模型能够通过你提供的可以明显观察的句子,推断出一个人隐含的心情状态(开心OR难过),并得到最后的行为判断(宅、购物、社交),即通过已知推断出未知。
而如何优化这个模型,得到最优隐含状态?人们提出了许多解决问题的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奥妙,难以尽述。但不能否认的是,在深度学习的基础上,数据+模型就能很好地打造出一款AI同传翻译,数据越大,神经网络更好。即使翻译结果不尽如人意,但只要建设足够大的数据库,建立更好的模型,打磨算法,AI同传很快就会有更大的提升。
NLP金字塔顶端反哺底端:打造高质量AI同传
除了增加数据库和打磨数据模型,AI同传还可以从哪些方面提升呢?我们不妨借鉴一下其它的技术。下图中,这四个方面代表了人们在NLP领域的一些进步。用金字塔形来表示这四个技术之间的关系,难度是逐级上升的。
目前,聊天机器人和阅读理解这一块儿已经取得了很大的突破。而AI阅读理解技术的进步不止是NLP的高阶进化,还有一层意义是,科学之间是相通的,技术之间可以互相借鉴,金字塔顶端技术可以反哺底端。
在自然语言处理上,人区别于AI的点在于人有先验知识。即人们在听到某个字时,会自然地联想到后一个字,或者会被一个词触发了一句话的联想。比如,我们听到“中”,既有可能想到“国”,也可能想到“间”。但是AI“联想”的词却依靠数据。它说“北”,如果输入的数据不变,那后面跟的就是”京“。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月12日火热报名中>>> STM32全球线上峰会
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26立即报名>>> 【在线会议】村田用于AR/VR设计开发解决方案
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论