RSS 2020 | 在目标、动力学和意图不确定下的隐含信念空间运动规划
二、问题规范化
该论文考虑的是如下图所示的POMDP 问题:系统处于连续的状态-动作-观测空间中,而系统的状态转移除了受到上一时刻的状态和动作影响,还由一个离散的隐变量z 决定,而每一时刻的观测量则由当前时刻的系统状态以及隐变量共同决定。其中隐变量z 可用于表示系统中不确定性的不同模态,如旁侧车辆驾驶者的性格、不同行进路线的路况、路面的物理状况等。
对隐变量z 的不同可能性的置信度b(z),我们可以通过如下定义进行更新。
问题的最终目标是对行为策略π 进行优化,从而使得累计损失函数值 J 达到最低。
其中l 和lf分别为根据置信度b 加权平均得到的过程损失函数和最终损失函数。由该公式取最优行为策略π* 后得出的值函数V 可以表示成贝尔曼方程形式,进行递归处理。
三、方 法
论文提出了一种新的微分动态规划(DDP)算法,Partially Observable Differential Dynamic Programming (PODDP),可用于解决连续空间下的POMDP 问题。与一般的iLQG/DDP 算法相似,PODDP 也把流程分为了前向过程(Forward Pass)和后向过程(Backward Pass),并对动作序列进行迭代优化。
1. 前向过程在前向过程进行前,动作序列U = { u0, u1, …, uT-1 } 需要预先给定。在初始化的前向过程中,一般使用随机生成的动作序列,或者通过某些前导知识有规律地生成动作序列。在此后的过程中,将使用前一次优化得到的动作序列,进行迭代优化。
在确定性系统中,由于状态转移过程是确定的,故给定的动作序列将衍生出一条链式的状态序列。但在我们考虑的系统中,由于多模态不确定性的存在,类比于离散空间下的POMDP 问题,每一个节点都可以根据隐变量z 的不同取值可能性,延伸出多个分支,最终形成一个树状的轨迹推演,即轨迹树(trajectory tree),如上图所示。
为了更直观地理解,我们可以考虑一个公路上的变道场景。如下图,我们的汽车(红色)希望变道到左侧车道,可是左侧车道上已经有一辆车了。我们在进行轨迹优化的时候,将未来可能获得的关于旁侧车辆驾驶者性格的观测纳入考虑当中,对方可能是合作性格的,也可能是激进性格的,这两种性格分别对应两个不同的模态。在向前推演的时候,根据这两种不同模态的最大似然值进行分支,获得轨迹推演树。每一条从根节点到叶节点的完整支路对应一条可能发生的轨迹。
2. 后向过程为了对轨迹树进行优化,我们首先定义值函数扰动方程Qt以描述在某一时刻t 下系统状态和动作的扰动对值函数的影响。
最新活动更多
-
11月28日立即报名>>> 2024工程师系列—工业电子技术在线会议
-
12月19日立即报名>> 【线下会议】OFweek 2024(第九届)物联网产业大会
-
即日-12.26火热报名中>> OFweek2024中国智造CIO在线峰会
-
即日-2025.8.1立即下载>> 《2024智能制造产业高端化、智能化、绿色化发展蓝皮书》
-
精彩回顾立即查看>> 2024 智能家居出海论坛
-
精彩回顾立即查看>> 【在线会议】多物理场仿真助跑新能源汽车
推荐专题
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论