2020 年 10 篇必读的 NLP 突破论文 LIST
9、聊天机器人 Meena
开放域聊天机器人仍然存在明显的弱点,比如说它们的响应通常没有意义,或者过于模糊或笼统。
为了解决这些问题,谷歌研究团队引入了 Meena(一个具有 2.6B 参数的生成式会话模型)。Meena 的 seq2seq 模型每层使用的是 Evolved Transformer (ET) 块。Encoder 端使用了 1 个 ET 层(相当于 2 层 Transformer),Decoder 端使用了 13 个 ET 层(相当于 26 层 Transformer)。
在多回合会话中训练模型,输入序列包括上下文的所有回合(最多 7 个),输出序列为响应。相比于 GPT-2 训练使用了 40GB 的文档数据,Meena 训练使用了 341GB 的对话数据。Meena 的模型参数规模达到了 2.6B,在 GPT-2 的基础上又大了不少。
与此同时,为了测量诸如 Meena 之类的开放域聊天机器人的质量,研究人员引入了一种新的人类评估指标,称为敏感度和敏感度平均值(SSA),它可以测量聊天机器人的两个基本方面 —— 有道理和具体。
Meena 的出现是一个进一步将计算机交互人性化的探索,可以帮助改善外语练习、使交互式电影和视频游戏角色具有关联性等应用场景。
不过,考虑到模型中与安全性和偏差有关的挑战,研究团队尚未开源该模型。
10、BlenderBot
Facebook AI Research 团队显示,有了适当的训练数据和生成策略,大型模型可以学习许多重要的会话技巧,例如提高参与度、运用知识、富有同情心和保持角色一致性等等。
他们建立了一个先进的对话机器人,名为 “BlenderBot”。利用这个具有 9.4B 参数的模型,团队对它进行了一项名为 Blended Skill Talk 的新任务的训练。
建立 BlenderBot 这样的开放域聊天机器人,有以下三个关键要素:
?规模大。最大的模型具有 94 亿个参数,并在提取的对话的 15 亿个训练示例中进行了训练。
?混合技能。聊天机器人接受了 “混合技能对话” 任务的培训,以学习诸如使用个性,使用知识和表现同情心之类的技能。
?用于解码的 Beam search 。
与上面的第九项研究 Meena 相比,Facebook 的这项工作进一步提升了基于预训练模型构建的聊天机器人的回复效果,甚至在短对话(14 轮以下)的人工评估中获得了非常接近人类的得分。
最新活动更多
-
即日-11.13立即报名>>> 【在线会议】多物理场仿真助跑新能源汽车
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 【限时免费下载】TE暖通空调系统高效可靠的组件解决方案
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论