AI同传现场掉链子，人工智能的理解能力还需努力

2018-04-19 11:44

隐马尔可夫模型（HMM）解决统计数据之外的语言问题

然而，在参考腾讯AI同传的失误后，我们发现，仅仅增加数据量还是不够的，在现实生活中，我们也会遇到零概率或者统计量不足的问题。

比如一个汉语的语言模型，就足足达到20万这个量级。曾有人做过这样一个假设，如果刨掉互联网上的垃圾数据，互联网中将会有100亿个有意义的中文网页，这还是相当高估的一个数据，每个网页平均1000词，那么，即使将互联网上上所有中文内容用作训练，依然只有1013。

为了解决数据量的问题，我们提出了隐马尔可夫模型（HMM）。实际应用中，我们可以把HMM看作一个黑箱子，这个黑箱子可以利用比较简洁的数据，处理后得出：

1．每个时刻对应的状态序列；

2．混合分布的均值和方差矩阵；

3．混合分布的权重矩阵；

4．状态间转移概率矩阵。

看起来可能比较复杂，简单点说，这个模型可以通过可观察的数据而发现这个数据域外的状态，即隐含状态。也就是说，我们可以凭借一句话，来探索出这句话后的隐含的意思，从而解决一些微妙的语义问题。

如上图所示，这个模型能够通过你提供的可以明显观察的句子，推断出一个人隐含的心情状态（开心OR难过），并得到最后的行为判断（宅、购物、社交），即通过已知推断出未知。

而如何优化这个模型，得到最优隐含状态？人们提出了许多解决问题的算法，包括前向算法、Viterbi算法和Baum－Welch算法。此中奥妙，难以尽述。但不能否认的是，在深度学习的基础上，数据＋模型就能很好地打造出一款AI同传翻译，数据越大，神经网络更好。即使翻译结果不尽如人意，但只要建设足够大的数据库，建立更好的模型，打磨算法，AI同传很快就会有更大的提升。

NLP金字塔顶端反哺底端：打造高质量AI同传

除了增加数据库和打磨数据模型，AI同传还可以从哪些方面提升呢？我们不妨借鉴一下其它的技术。下图中，这四个方面代表了人们在NLP领域的一些进步。用金字塔形来表示这四个技术之间的关系，难度是逐级上升的。

目前，聊天机器人和阅读理解这一块儿已经取得了很大的突破。而AI阅读理解技术的进步不止是NLP的高阶进化，还有一层意义是，科学之间是相通的，技术之间可以互相借鉴，金字塔顶端技术可以反哺底端。

在自然语言处理上，人区别于AI的点在于人有先验知识。即人们在听到某个字时，会自然地联想到后一个字，或者会被一个词触发了一句话的联想。比如，我们听到“中”，既有可能想到“国”，也可能想到“间”。但是AI“联想”的词却依靠数据。它说“北”，如果输入的数据不变，那后面跟的就是”京“。