突破瓶颈高效测评：谷歌提出自然语言生成任务评测新方法BLEURT - OFweek 人工智能网

当前位置： OFweek 人工智能网 > 自然语言处理 > 正文

7.30-8.1 全数会2025（第六届）机器人及智能工厂展
火热报名中>>
即日-2025.8.1《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
立即下载>>

突破瓶颈高效测评：谷歌提出自然语言生成任务评测新方法BLEURT

2020-05-29 14:30

利用机器学习创造一个度量标准需要解决根本的挑战：这一指标需要在不同域和时间上具备连续性。然而训练数据的数量总是有限的，同时公开数据集也是稀疏的。即使目前最大的人类评测数据集WMT度量任务数据集，包含了260k的人类测评，仅仅只覆盖了新闻领域。这对于训练一个适用范围广泛的NLG测评指标远远不够。

为了解决这一问题，迁移学习被引入了这项研究。首先充分利用了BERT中上下文词语表示，BERT是目前用于语言理解最先进的非监督表示学习方法，并成功应用于想YiSi和BERTScore等NLG指标上。

其次研究人人员引入了一种新颖的预训练机制来提升BLEURT的鲁棒性。实验表明直接在人类测评数据集上训练回归模型十分不稳定，因为无法控制测评指标在哪个域或者哪个时间跨度上使用。其精度很容易在出现域漂移的情况时下降，例如测试时文本信息来自于与训练句子对不同的域时。同时在质量漂移时其性能也会下架，例如要预测评级比训练评级高时就可能引起性能下降，不过这也是机器学习研究正在取得进展的标志特征。

BLEURT的成功取决于模型利用数百万合成句子对儿来进行预热，随后再利用人类评级进行微调。通过给来自维基百科的句子加入随机扰动来生成训练数据，研究人员没有采用人类评级而是利用了文献中的模型和指标，使得训练样本的数量可以低成本地进行扩充。

BLEURT数据生成过程，结合了随机扰动和现有的指标和模型。

BLEURT的预训练分别在语言模型目标和NLG评测目标上训练了两次。随后在WMT指标数据集上进行了调优，下图展示了BLEURT端到端的训练流程。实验表明预训练模型极大地提升了BLEURT的精度，特别在测试分布外数据时尤其如此。

结论

与多个指标在机器翻译和数据文本生成任务上的比较结果表明，BLEURT显示出了优异的性能。例如BLEURT在2019年的WMT Metrics Shared任务上的精度超过了BLEU48％。

在WMT’19 Metrics Shared 任务上，不同指标和人类评级结果的相关性。

研究人员希望这一指标可以为NLG任务提供更好的评测方式，提供灵活的语义的评测视角。BLEURT可以为人们提供除了重合度外更好的测评指标，打破现有测评方法对于算法研发的束缚。

<上一页 1 2

本地收藏打印推荐给朋友

声明： 本文由入驻维科号的作者撰写，观点仅代表作者本人，不代表OFweek立场。如有侵权或其他问题，请联系举报。

发表评论

共0条评论，0人参与

登录登录即可访问所有OFweek服务

用户名/邮箱/手机：
密码：
忘记密码？
用其他账号登录： QQ | 微信 | 新浪微博

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

暂无评论

Alphamoisture SUPER-DEW在线数显式露点湿度计-SUPER-DEW

Alphamoisture 在线式智能型露点仪-DS-3000

Alphamoisture 在线式智能型露点仪- DS2000

Alphamoisture 便携式防爆露点仪-DSP-Ex

Alphamoisture 便携式露点仪-DP70

图片新闻

Alphamoisture SUPER-DEW在线数显式露点湿度计-SUPER-DEW

Alphamoisture 在线式智能型露点仪-DS-3000

Alphamoisture 在线式智能型露点仪- DS2000

Alphamoisture 便携式防爆露点仪-DSP-Ex

Alphamoisture 便携式露点仪-DP70

Alphamoisture 便携式快速露点湿度计/露点仪-SADPu/SADPu-D

最新活动更多

一周热点月点击榜

企业服务广告服务猎头服务薪酬报告

人工智能猎头职位更多

扫码关注公众号
OFweek人工智能网
获取更多精彩内容

文章纠错

x

_*文字标题：

_*纠错内容：

联系邮箱：

_*验证码：

看不清，点击换一张

粤公网安备 44030502002758号

X