2020 年 10 篇必读的 NLP 突破论文 LIST

2020-12-30 15:27

4、为长文档而生的 Longformer

Self－Attention 机制是成功实现 Transformer 体系结构的关键因素之一。但是，它也使得基于 Transformer 的模型很难应用于长文档。

现有技术通常将长输入分成多个块，然后再使用复杂的结构在这些块中组合信息。艾伦人工智能研究所的研究团队，则为这个问题介绍了一种更为优雅的解决方案。

他们提出的 Longformer 采用了一种新的注意力模式，即将局部自注意力和全局自注意力相结合，在提高效率的同时又不失效果。这种关注机制与序列长度成线性比例，并可以处理具有数千个 tokens 的文档。由于 sliding window 注意力模式的实现需要带状矩阵乘法的形式，而现有的深度学习库（如 PyTorch 和 Tensorflow）不支持这种形式，因此作者还引入了自定义 CUDA 内核来实现这些注意力操作。

实验表明，Longformer 在字符级语言建模任务上取得了最先进的结果，并且在经过预培训后，在长文档任务上始终优于 RoBERTa。

一句话总结现实影响：对于经常需要处理长文档的下游 NLP 任务，Longformer 体系结构可能会有更明显的优势，这些任务包括文件分类、问答、共指解析、总结、语义搜索等。

5、GAN 的巧妙运用之 ELECTRA

诸如 BERT 和 XLNet 这类颇受欢迎的语言模型，在预训练任务中会屏蔽一小部分未标记的输入，然后训练网络以恢复此原始输入。

尽管这种名叫 MLM（Masked language modeling）的训练方式效果很好，但是由于它只能从一小部分 tokens（通常约 15％）中学习，因此其数据效率并不是特别高。这种方式迁移到下游 NLP 任务时能够得到较好的结果，但往往需要大量的算力。

作为替代方案，斯坦福大学和谷歌大脑的研究人员基于 BERT 的模型，与 GAN 的想法相融合，提出一种新的预训练方法 ——RTD ，replaced token detection。RTD 不会对输入进行遮蔽，而是从生成器中采样得到可信的 tokens，再替换掉原始输入上的 tokens。

结果显示，该方法可显着加快下游 NLP 任务的训练速度并提高准确性：ELECTRA－Small 的 GLUE 得分为 79．9，优于同类的 BERT 模型（得分为 75．1）和更大的 GPT 模型（得分为 78．8）；可与 XLNet 和 RoBERTa 媲美的 ELECTRA 模型，仅使用其预训练计算量的 25％；ELECTRA－Large 在 GLUE 和 SQuAD 基准测试中优于其他最新模型，同时仍需要较少的预训练计算。

一句话总结现实影响：由于其计算效率高，ELECTRA 方法可使从业者更容易使用预训练的文本编码器。

6、GPT－3 的诞生