突破瓶颈高效测评:谷歌提出自然语言生成任务评测新方法BLEURT
利用机器学习创造一个度量标准需要解决根本的挑战:这一指标需要在不同域和时间上具备连续性。然而训练数据的数量总是有限的,同时公开数据集也是稀疏的。即使目前最大的人类评测数据集WMT度量任务数据集,包含了260k的人类测评,仅仅只覆盖了新闻领域。这对于训练一个适用范围广泛的NLG测评指标远远不够。
为了解决这一问题,迁移学习被引入了这项研究。首先充分利用了BERT中上下文词语表示,BERT是目前用于语言理解最先进的非监督表示学习方法,并成功应用于想YiSi和BERTScore等NLG指标上。
其次研究人人员引入了一种新颖的预训练机制来提升BLEURT的鲁棒性。实验表明直接在人类测评数据集上训练回归模型十分不稳定,因为无法控制测评指标在哪个域或者哪个时间跨度上使用。其精度很容易在出现域漂移的情况时下降,例如测试时文本信息来自于与训练句子对不同的域时。同时在质量漂移时其性能也会下架,例如要预测评级比训练评级高时就可能引起性能下降,不过这也是机器学习研究正在取得进展的标志特征。
BLEURT的成功取决于模型利用数百万合成句子对儿来进行预热,随后再利用人类评级进行微调。通过给来自维基百科的句子加入随机扰动来生成训练数据,研究人员没有采用人类评级而是利用了文献中的模型和指标,使得训练样本的数量可以低成本地进行扩充。
BLEURT数据生成过程,结合了随机扰动和现有的指标和模型。
BLEURT的预训练分别在语言模型目标和NLG评测目标上训练了两次。随后在WMT指标数据集上进行了调优,下图展示了BLEURT端到端的训练流程。实验表明预训练模型极大地提升了BLEURT的精度,特别在测试分布外数据时尤其如此。
结 论
与多个指标在机器翻译和数据文本生成任务上的比较结果表明,BLEURT显示出了优异的性能。例如BLEURT在2019年的WMT Metrics Shared任务上的精度超过了BLEU48%。
在WMT’19 Metrics Shared 任务上,不同指标和人类评级结果的相关性。
研究人员希望这一指标可以为NLG任务提供更好的评测方式,提供灵活的语义的评测视角。BLEURT可以为人们提供除了重合度外更好的测评指标,打破现有测评方法对于算法研发的束缚。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论