订阅
纠错
加入自媒体

谷歌提出非监督强化学习新方法助力智能体发现多样化可预测新技能

2020-06-05 11:37
将门创投
关注

利用模型动力学实现基于模型的控制

DADS不仅可以发现可预测的潜在有用模型,同时允许高效地将学习到的技能应用于下游任务中去。可以利用学习到的技能动力学来预测每个技能的状态转移,预测的状态转移可以被衔接起来模拟任意技能的完整状态轨迹,而无需在环境中执行。因此我们可以模拟不同技能的轨迹,并为给定的任务选择最高奖励的技能。基于模型的规划方法具有很高的样本效率并无需额外的训练。相较于先前的方法是一个重要的进步,无需针对学习到的技能在环境中进行额外的训练。

利用智能体发现的技能,就可以在无需额外实验的情况下遍历任意检查点。上图显示了主体在检查点间的遍历情况。

真实实验

为了验证算法的有效性,研究人员针对这一算法提出了简化版本off-DADS,通过离线学习对算法和系统上的改进,使得模型可以利用从不同策略下收集的数据来改进当前策略。特别是对于先前数据的复用将显著提升强化学习算法的样本效率。在改进的离线策略基础上,研究人员从随机初始化策略开始训练了小四足机器人,在没有任何环境奖励和手工探索策略的情况下,通过DADS定义的内部奖励实现了多种步态和方向性运动。

这种新颖的非监督学习技能发现方法可以在将来被用于更为广泛的真实世界任务中,在最小化人类工作的情况下适应广泛场景和任务需求。未来研究人员们将在状态表示和技能发现间进行更为深入的研究,并探索将高级的运动规划和底层的控制进行分离的技能探索策略。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    人工智能 猎头职位 更多
    扫码关注公众号
    OFweek人工智能网
    获取更多精彩内容
    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号