AI研究员收集NLP数据的四种创意方法

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>
即日-2025.8.1《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
立即下载>>

AI研究员收集NLP数据的四种创意方法

2018-11-08 08:19

数据是推动AI发展的催化剂，但如果要收集有效的数据，这就需要AI专家富有创造性了。自然语言处理（NLP）是AI的一个子域，侧重于教计算机如何解析人类语言。在MIT的年度自然语言处理实证方法会议（EMNLP 2018）中，来自微软、脸谱网和谷歌等科技公司或组织的AI专家们介绍了一大系列收集信息的新颖方法，本文主要总结了其中令人印象深刻的四种方法。

1. 混合语言（Spanish+English=Spanglish）

微软在多语种NLP的论文提出了一种专注于处理“混合语言”的方法，即在夹杂不同语言的文本或语音中自由切换，考虑到世界上超过一半的人口使用多语言，这个对此前未涉及领域的研究非常重要。

研究人员从西班牙语和英语着手，不过他们缺少足量的西班牙语文本来训练机器。正如混合代码，很少能找到包含多语言会话的文本，研究人员编写了一个程序克服这个挑战：把流行英语文本录入到微软的必应翻译器，然后将以词组为单位翻译的西班牙语译文转入源文本，确保交换的单词和短语具备同样的意思。通过这种方式，他们能够创建出足够多的西班牙式英语。

通过这种方式产生的NLP模型明显优于之前只用西班牙语或只用英语训练的模型。研究人员希望他们的工作最终能帮助开发多语言聊天机器人。

2. 食谱

食谱以图文并茂和循序渐进的方式教人如何做菜，类似这种的方法也可以被用来训练机器：用结构数据教会机器同时理解文本和图像。土耳其哈斯特帕大学的研究人员汇编了一套涵盖两万多本插图烹饪食谱的大型数据集，他们希望将此作为用于训练机器文本-图像理解性能的基准测试的新资源。

这个所谓的“食谱QA”的数据集是建立在先前的研究基础之上，此前的研究分别侧重机器阅读理解和视觉理解能力，对于前者，机器必须理解问题和相关段落才能找到答案，而对于后者，机器只能在相关图像中搜索答案。文本和图像的并排增加了任务的复杂性，因为这会呈现出互补或多余的信息。

3. 短句

谷歌希望用AI润色散文，研究人员为此创造了有史以来最大的数据集：将长句缩减成短句，但两者具备相同意义。在哪里才能找到大量的编辑数据呢？当然是维基百科了。

研究团队从维基百科丰富的编辑历史中提取了拆分长句的实例，结果显示，相比以前的基准数据集，这次任务中发现了60倍不同的句子拆分例子和90倍的词汇单词，而且数据集跨越多种语言。

当研究人员用新的数据训练机器学习模型时，其准确度（这里的准确度是指句子被重写后其意义和语法保持正确的比例）高达91%，相比之下，用先前数据进行训练的模型仅达到32%的准确度，最后，研究人员结合了两个数据集并用此对第三个模型进行了训练，准确度达到了95%。因此，研究人员得出结论，可以通过寻找更多的数据来源实现更好的效果。

4. 社交媒体的偏差

相关研究已表明，人类创造的语言是人类种族、性别和年龄很好的一个预测指标，即使这些信息从未被明确地陈述过。因此，以色列巴伊兰大学和艾伦AI研究所的研究人员试图利用AI通过移除这些内嵌指标来消除文本中的偏差。

为了获取足够数据代表基于不同人口统计的语言模式，他们转向了Twitter平台，收集了几组不同用户的推文，其中的对比组用户包括非西班牙裔的白人和非西班牙裔的黑人、男性和女性、18-34岁和35岁以上。

研究人员采用一种对抗方式将两个神经网络相互对立，查看其是否能自动除去推文中内在的人口统计指标。其中一个神经网络试图预测人口统计学，而另一个试图将文本调整到完全中立的状态，其目的是将第一个模型的预测准确度（或可能性）降低到50%。通过这种方式能显著减低种族，性别和年龄的指标，但无法完全消除。