订阅
纠错
加入自媒体

2020 年 10 篇必读的 NLP 突破论文 LIST

2020-12-30 15:27
学术头条
关注

9、聊天机器人 Meena

开放域聊天机器人仍然存在明显的弱点,比如说它们的响应通常没有意义,或者过于模糊或笼统。

为了解决这些问题,谷歌研究团队引入了 Meena(一个具有 2.6B 参数的生成式会话模型)。Meena 的 seq2seq 模型每层使用的是 Evolved Transformer (ET) 块。Encoder 端使用了 1 个 ET 层(相当于 2 层 Transformer),Decoder 端使用了 13 个 ET 层(相当于 26 层 Transformer)。

在多回合会话中训练模型,输入序列包括上下文的所有回合(最多 7 个),输出序列为响应。相比于 GPT-2 训练使用了 40GB 的文档数据,Meena 训练使用了 341GB 的对话数据。Meena 的模型参数规模达到了 2.6B,在 GPT-2 的基础上又大了不少。

与此同时,为了测量诸如 Meena 之类的开放域聊天机器人的质量,研究人员引入了一种新的人类评估指标,称为敏感度和敏感度平均值(SSA),它可以测量聊天机器人的两个基本方面 —— 有道理和具体。

Meena 的出现是一个进一步将计算机交互人性化的探索,可以帮助改善外语练习、使交互式电影和视频游戏角色具有关联性等应用场景。

不过,考虑到模型中与安全性和偏差有关的挑战,研究团队尚未开源该模型。

10、BlenderBot

Facebook AI Research 团队显示,有了适当的训练数据和生成策略,大型模型可以学习许多重要的会话技巧,例如提高参与度、运用知识、富有同情心和保持角色一致性等等。

他们建立了一个先进的对话机器人,名为 “BlenderBot”。利用这个具有 9.4B 参数的模型,团队对它进行了一项名为 Blended Skill Talk 的新任务的训练。

建立 BlenderBot 这样的开放域聊天机器人,有以下三个关键要素:

?规模大。最大的模型具有 94 亿个参数,并在提取的对话的 15 亿个训练示例中进行了训练。

?混合技能。聊天机器人接受了 “混合技能对话” 任务的培训,以学习诸如使用个性,使用知识和表现同情心之类的技能。

?用于解码的 Beam search 。

与上面的第九项研究 Meena 相比,Facebook 的这项工作进一步提升了基于预训练模型构建的聊天机器人的回复效果,甚至在短对话(14 轮以下)的人工评估中获得了非常接近人类的得分。

<上一页  1  2  3  4  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号