2020 年 10 篇必读的 NLP 突破论文 LIST
4、为长文档而生的 Longformer
Self-Attention 机制是成功实现 Transformer 体系结构的关键因素之一。但是,它也使得基于 Transformer 的模型很难应用于长文档。
现有技术通常将长输入分成多个块,然后再使用复杂的结构在这些块中组合信息。艾伦人工智能研究所的研究团队,则为这个问题介绍了一种更为优雅的解决方案。
他们提出的 Longformer 采用了一种新的注意力模式,即将局部自注意力和全局自注意力相结合,在提高效率的同时又不失效果。这种关注机制与序列长度成线性比例,并可以处理具有数千个 tokens 的文档。由于 sliding window 注意力模式的实现需要带状矩阵乘法的形式,而现有的深度学习库(如 PyTorch 和 Tensorflow)不支持这种形式,因此作者还引入了自定义 CUDA 内核来实现这些注意力操作。
实验表明,Longformer 在字符级语言建模任务上取得了最先进的结果,并且在经过预培训后,在长文档任务上始终优于 RoBERTa。
一句话总结现实影响:对于经常需要处理长文档的下游 NLP 任务,Longformer 体系结构可能会有更明显的优势,这些任务包括文件分类、问答、共指解析、总结、语义搜索等。
5、GAN 的巧妙运用之 ELECTRA
诸如 BERT 和 XLNet 这类颇受欢迎的语言模型,在预训练任务中会屏蔽一小部分未标记的输入,然后训练网络以恢复此原始输入。
尽管这种名叫 MLM(Masked language modeling)的训练方式效果很好,但是由于它只能从一小部分 tokens(通常约 15%)中学习,因此其数据效率并不是特别高。这种方式迁移到下游 NLP 任务时能够得到较好的结果,但往往需要大量的算力。
作为替代方案,斯坦福大学和谷歌大脑的研究人员基于 BERT 的模型,与 GAN 的想法相融合,提出一种新的预训练方法 ——RTD ,replaced token detection。RTD 不会对输入进行遮蔽,而是从生成器中采样得到可信的 tokens,再替换掉原始输入上的 tokens。
结果显示,该方法可显着加快下游 NLP 任务的训练速度并提高准确性:ELECTRA-Small 的 GLUE 得分为 79.9,优于同类的 BERT 模型(得分为 75.1)和更大的 GPT 模型(得分为 78.8);可与 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,仅使用其预训练计算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基准测试中优于其他最新模型,同时仍需要较少的预训练计算。
一句话总结现实影响:由于其计算效率高,ELECTRA 方法可使从业者更容易使用预训练的文本编码器。
6、GPT-3 的诞生
如果每一个新的语言任务都需要一个与之对应的、标签化了的数据集,那这绝对会限制语言模型的适用性。
考虑到语言任务的范围很广,而且通常很难收集到大量带标注、可用于训练的数据集,OpenAI 的研究人员提出了另一种解决方案,即扩大语言模型的规模,训练出含 175 B 参数的 GPT-3。
该团队希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。
他们在三种不同的设置中评估了 GPT-3 :
?Few-shot learning,在推理时给模型一些任务演示(通常是 10 到 100),但不允许权重更新。
?One-shot learning,仅允许一次演示,以及对任务的自然语言描述。
?Zero-shot,不允许进行演示且模型只能访问任务的自然语言描述时。
这三种评估表明,只训练了一个语言模型、没有针对任何任务进行 Fine-tuning 的 GPT-3,可以完成多项 NLP 任务,并且每一项任务都可以得到很好的效果。
也就是说,当将这样的语言模型扩展到前所未有的参数数量时,该语言模型本身可以用作少样本学习的工具,无需任何额外的训练就可以在许多任务上取得非常有竞争力的表现。
一句话总结现实影响:一个带有 175B 参数的模型,其资源消耗也是不符合现实考虑的,但是如果研究人员设法将此模型精简为可行的大小,则可以将其应用于各种语言任务,包括问答和广告文案生成。
最新活动更多
-
即日-11.13立即报名>>> 【在线会议】多物理场仿真助跑新能源汽车
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 【限时免费下载】TE暖通空调系统高效可靠的组件解决方案
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论