专利一种针对智能体长程连续控制任务的离线示教学习系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210976248.6 (22)申请日 2022.08.15 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人董敏　曹瑞东　毕盛　江煊璐　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G05B 13/02(2006.01) G05B 19/42(2006.01) G06N 3/00(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/00(2019.01) (54)发明名称一种针对智能体长程连续控制任务的离线示教学习系统 (57)摘要本发明公开了一种针对智能体长程连续控制任务的离线示教学习系统，包括：长程候选路径规划器模块，负责根据任务环境中被操纵物体和智能体的初始状态生成多条包含多个子目标状态的候选路径；最优路径选择模块，负责对生成的多条候选路径进行价值评估，从中选出价值最高的一条路径作为最优路径；子目标约束下的最优动作选择模块，负责以最优路径作为指导路径，以指导路径上的单个子目标状态为约束，根据当前操纵物体和智能体状态生成智能体的动作到达新的状态，在进行多次状态转换后，更换子目标直至跟踪完指导路径上的所有子目标状态，完成对被操纵物体的长程连续控制任务。本发明有利于智能体在真实环境下利用人类示教数据进行离线学习。权利要求书3页说明书8页附图2页 CN 115437241 A 2022.12.06 CN 115437241 A 1.一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，包括：长程候选路径规划器模块，负责根据任务环境中被操纵物体和智能体的初始状态生成多条包含多个子目标状态的候选路径；其中，所述智能体通过其机械臂对被操纵物体进行操纵；最优路径选择模块，负责对长程候选路径规划器模块生成的多条候选路径进行价值评估，从中选出价值最高的一条路径作为最优路径；子目标约束下的最优动作选择模块，负责以最优路径选择模块所筛选出的最优路径作为指导路径，以指导路径上的单个子目标状态为约束，根据当前操纵物体和智能体状态生成智能体的动作到达新的状态，在进行多次状态转换后，更换子目标直至跟踪完指导路径上的所有子目标状态，从而完成对被操纵物体的长程连续控制任务。 2.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，所述长程候选路径规划器模块为条件变分自动编码器结构，包含编码器和解码器，具体情况如下：所述编码器由一个包含两层全连接层的多层感知机MLP、一个包含两个隐藏层和一个全连接层的LSTM网络以及两个全连接层分支构成，只作用于长程候选路径规划器模块的训练阶段；所述解码器由一个包含两层全连接层的多层感知机、一个包含两个隐藏层和一个全连接层的LSTM网络以及一个全连接层构成；在所述长程候选路径规划器模块的训练阶段，预先操纵智能体从环境中收集多条示教轨迹作为训练数据集，每条示教轨迹表示为Pi＝{s0,a0,r0,s1,a1,r1,s2,a2,r2,...,sn,an, rn}， n＝1,2,3, …，其中sn,an,rn表示第i条示教轨迹Pi在第n时刻的参数， sn为被操纵物体和智能体的状态，由被操纵物体的位置和朝向参数以及智能体的机械臂关节角度构成， s0为被操纵物体和智能体的初始状态， s1为初始状态s0之后智能体执行动作达到的新状态， s2为状态s1之后智能体执行动作达到的新状态， an为智能体在状态sn下执行的动作，即智能体的机械臂的各关节期望到达的下一位置， rn为智能体在环境中获得的奖励，奖励使用新状态与期望到达的目标状态之间的距离作为度量；在所述长程候选路径规划器模块的训练阶段，所述编码器以从示教轨迹中稀疏采样得到的初始状态和子目标状态序列的原始值作为输入，表示子目标状态序列原始值中的第ti个子目标状态， i＝1,2,3,...,H，经多层感知机和LSTM网络后，再分别经由两个全连接层输出 μs和σs；从以μs为期望、 σs为标准差的高斯分布中采样一个隐变量z，所述解码器以隐变量z和初始状态作为输入，输出子目标状态序列的预测值表示子目标状态序列预测值中的第ti个子目标状态， i ＝1,2,3,. ..,H，以子目标状态序列的原始值和预测值间的均方差以及高斯分布N( μs, σs)和标准高斯分布N(0, 1)之间的KL散度之和为损失函数训练所述长程候选路径规划器模块，损失函数如下： 3.根据权利要求2所述的一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，训练后的长程候选路径规划器模块关闭其解码器，从标准高斯分布中采样T个隐变量z，将每个隐变量z和初始状态s0作为输入，通过其编码器预测子目标状态序列， 1个隐权　利　要　求　书 1/3 页 2 CN 115437241 A 2变量z对应1个子目标状态序列， T个子目标状态序列作为候选路径。 4.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，所述最优路径选择模块包括动作生成器和状态 ‑动作评价器，具体情况如下：所述动作生成器为条件变分编码器结构，由编码器和解码器构成，其编码器由一个具有4层全连接层的MLP和两个全连接层分支构成，其解码器为一个具有3层全连接层的MLP；所述状态 ‑动作评价器由一个具有3层全连接层的MLP 构成；在所述最优路径选择模块的训练阶段，所述动作生成器的编码器以元组(s,a,r,s ’)为输入，其中s为当前状态， a为在当前状态执行的动作原始值， s ’为智能体在状态s下执行完动作a后到达的新状态， r 为智能体在执行动作a后得到的奖励，编码器输出 μh和σh，从以μh为期望、 σh为标准差的高斯分布中采样隐变量z，所述动作生成器的解码器以状态 s和隐变量z 为输入，生成动作预测值所述动作生成器以下面公式作为损失函数，为动作原始值a和动作预测值间的均方差以及高斯分布N( μh, σh)和标准高斯分布N(0,1)之间的KL散度之和，最小化损失函数更新所述动作生成器权重：在所述最优路径选择模块的训练阶段，从标准高斯分布中采样m个隐变量z， m个隐变量 z和状态s ’通过动作生成器的解码器生成m个动作ai,i＝1,2,...,m，所述状态 ‑动作评价器以状态‑动作对(s ’,ai)为输入得到对该状态 ‑动作对的评价分数，所述状态 ‑动作评价器以下列公式作为损失函数，其中Q(s,a)表示状态 ‑动作对(s,a)的评价分数，表示 m对(s’,ai)的评价分数中的最高评价分数，最小化损失函数更新状态 ‑动作评价器权重： 5.根据权利要求4所述的一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，训练后的最优路径选择模块，针对每个从长程候选路径规划器模块得到的子目标状态序列表示子目标状态序列中的第ti个子目标状态， i＝1,2,3, ...,H，通过最优路径选择模块的动作生成器的解码器对每个生成动作，然后通过状态 ‑动作评价器计算状态 ‑动作对的分数，状态 ‑动作对的分数被视为子目标状态的得分，计算子目标状态序列S_predictt上所有子目标的得分，所有子目标得分的总和为S_predictt的得分，选择得分最高的S_predictt作为最优指导路径。 6.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统，其特征在于，所述子目标约束下的最优动作选择模块由带有子目标约束的动作生成器和状态‑动作评价器构成，具体情况如下：所述动作生成器为条件变分编码器结构，由编码器和解码器构成，其编码器由一个具有4层全连接层的MLP和两个全连接层分支，其解码器为一个具有3层全连接层的MLP；所述状态‑动作评价器由一个具有3层全连接层的MLP 构成；在所述子目标约束下的最优动作选择模块的训练阶段，所述动作生成器的编码器以元组(s,sg,a,r,s’)为输入，其中sg为在当前状态s所期望到达的下一子目标状态约束， a为在当前状态执行的动作原始值， s’为智能体在状态s下执行完动作a后到达的新状态， r 为智能权　利　要　求　书 2/3 页 3 CN 115437241 A 3

专利 一种针对智能体长程连续控制任务的离线示教学习系统

专利一种针对智能体长程连续控制任务的离线示教学习系统