(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210976248.6
(22)申请日 2022.08.15
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 董敏 曹瑞东 毕盛 江煊璐
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G05B 13/02(2006.01)
G05B 19/42(2006.01)
G06N 3/00(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 20/00(2019.01)
(54)发明名称
一种针对智能体长程连续控制任务的离线
示教学习 系统
(57)摘要
本发明公开了一种针对智能体长程连续控
制任务的离线示教学习系统, 包括: 长程候选路
径规划器模块, 负责根据任务环 境中被操纵物体
和智能体的初始状态生成多条包含多个子目标
状态的候选路径; 最优路径选择模块, 负责对生
成的多条候选路径进行价值评估, 从中选出价值
最高的一条路径作为最优路径; 子目标约束下的
最优动作选择模块, 负责以最优路径作为指导路
径, 以指导路径上的单个子目标状态为约束, 根
据当前操纵物体和智能体状态生成智能体的动
作到达新的状态, 在进行多次状态转换后, 更换
子目标直至跟踪完指导路径上的所有子目标状
态, 完成对被操纵物体的长程连续控制任务。 本
发明有利于智能体在真实环境下利用人类示教
数据进行离线学习。
权利要求书3页 说明书8页 附图2页
CN 115437241 A
2022.12.06
CN 115437241 A
1.一种针对智能体长程连续控制任务的离线示教学习 系统, 其特 征在于, 包括:
长程候选路径规划器模块, 负责根据任务环境中被操 纵物体和智能体的初始状态生成
多条包含多个子目标状态的候选路径; 其中, 所述智能体通过其机械臂对被操纵物体进行
操纵;
最优路径选择模块, 负责对长程候选路径规划器模块生成的多条候选路径进行价值评
估, 从中选出价 值最高的一条路径作为 最优路径;
子目标约束下的最优动作选择模块, 负责以最优路径选择模块所筛选出的最优路径作
为指导路径, 以指导路径上 的单个子目标状态为约束, 根据当前操纵物体和智能体状态生
成智能体的动作到达新的状态, 在进行多次状态转换后, 更换子目标直至跟踪完指导路径
上的所有子目标状态, 从而完成对被操纵物体的长程连续控制任务。
2.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统, 其
特征在于, 所述长程候选路径规划器模块为条件变分自动编码器结构, 包含编码器和解码
器, 具体情况如下:
所述编码器由一个包含两层全连接层的多层感知机MLP、 一个包含两个隐藏层和一个
全连接层的LSTM网络以及两个全连接层分支构成, 只作用于长程候选路径 规划器模块的训
练阶段; 所述解码器由一个包含两层全连接层的多层感知机、 一个包含两个隐藏层和一个
全连接层的LSTM网络以及一个全连接层构成;
在所述长程候选路径规划器模块的训练阶段, 预先操 纵智能体从环境中收集多条示教
轨迹作为训练数据集, 每条示教轨迹表示为Pi={s0,a0,r0,s1,a1,r1,s2,a2,r2,...,sn,an,
rn}, n=1,2,3, …, 其中sn,an,rn表示第i条示教轨迹Pi在第n时刻的参数, sn为被操纵物体和
智能体的状态, 由被操纵物体 的位置和朝向参数以及智能体 的机械臂关节角 度构成, s0为
被操纵物体和智能体的初始状态, s1为初始状态s0之后智能体执行动作达到的新状态, s2为
状态s1之后智能体执行动作达到的新状态, an为智能体在状态sn下执行的动作, 即智能体的
机械臂的各关节期望到达的下一位置, rn为智能体在环境中获得的奖励, 奖励使用新状态
与期望到达的目标状态之间的距离作为度量;
在所述长程候选路径规划器模块的训练阶段, 所述编码器以从示教轨迹 中稀疏采样得
到的初始状态
和子目标状态序列的原始值
作为输入,
表示子目标状态
序列原始值中的第ti个子目标状态, i=1,2,3,...,H, 经多层感知机和LSTM网络后, 再分别
经由两个全连接层输出 μs和σs; 从以μs为期望、 σs为标准差的高斯分布中采样一个隐变量z,
所述解码器以隐变量z和初始状态
作为输入, 输出子目标状态序列的预测值
表示子目标状态序列预测值中的第ti个子目标状态, i =1,2,3,. ..,H, 以
子目标状态序列的原始值和预测值间的均方差以及高斯分布N( μs, σs)和标准高斯分布N(0,
1)之间的KL散度之和为损失函数训练所述长程 候选路径规划器模块, 损失函数如下:
3.根据权利要求2所述的一种针对智能体长程连续控制任务的离线示教学习系统, 其
特征在于, 训练后的长程候选路径规划器模块关闭其解码 器, 从标准高斯分布中采样T个隐
变量z, 将每个隐变量z和初始状态s0作为输入, 通过其编码器预测子目标状态序列, 1个隐权 利 要 求 书 1/3 页
2
CN 115437241 A
2变量z对应1个子目标状态序列, T个子目标状态序列 作为候选路径。
4.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统, 其
特征在于, 所述 最优路径选择模块包括动作生成器和状态 ‑动作评价器, 具体情况如下:
所述动作生成器为条件变分编码器结构, 由编码器和解码器构成, 其编码器由一个具
有4层全连接层的MLP和两个全连接层分支构成, 其解码器为一个具有3层全连接层的MLP;
所述状态 ‑动作评价器由一个具有3层全连接层的MLP 构成;
在所述最优路径选择模块的训练阶段, 所述动作生成器的编码器以元组(s,a,r,s ’)为
输入, 其中s为当前状态, a为在当前状态执行的动作原始值, s ’为智能体在状态s下执行完
动作a后到达的新状态, r 为智能体在执行动作a后得到的奖励, 编码器输出 μh和σh, 从以μh为
期望、 σh为标准差的高斯分布中采样隐变量z, 所述动作生成器的解码器以状态 s和隐变量z
为输入, 生成动作预测值
所述动作生成器以下面公式作为损失函数, 为动作原始值a和
动作预测值
间的均方差以及高斯分布N( μh, σh)和标准高斯分布N(0,1)之间的KL散度之
和, 最小化损失函数 更新所述动作生成器权 重:
在所述最优路径选择模块的训练阶段, 从标准高斯分布中采样m个隐变量z, m个隐变量
z和状态s ’通过动作生成器的解码器生成m个动作ai,i=1,2,...,m, 所述状态 ‑动作评价器
以状态‑动作对(s ’,ai)为输入得到对该状态 ‑动作对的评价分数, 所述状态 ‑动作评价器以
下列公式作为损失函数, 其中Q(s,a)表示状态 ‑动作对(s,a)的评价分数,
表示
m对(s’,ai)的评价分数中的最高评价分数, 最小化损失函数 更新状态 ‑动作评价器权 重:
5.根据权利要求4所述的一种针对智能体长程连续控制任务的离线示教学习系统, 其
特征在于, 训练后的最优路径选择模块, 针对每个从长程候选路径规划器模块得到的子目
标状态序列
表示子目标状态序列中的第ti个子目
标状态, i=1,2,3, ...,H, 通过最优路径选择模块的动作生成器的解码器对 每个
生成动作, 然后通过状态 ‑动作评价器计算状态 ‑动作对的分数, 状态 ‑动作对的分数被视为
子目标状态
的得分, 计算子目标状态序列S_predictt上所有子目标的得 分, 所有
子目标得分的总和为S_predictt的得分, 选择 得分最高的S_predictt作为最优指导路径。
6.根据权利要求1所述的一种针对智能体长程连续控制任务的离线示教学习系统, 其
特征在于, 所述子目标约束下的最优动作选择模块由带有子目标约束的动作生成器和状
态‑动作评价器构成, 具体情况如下:
所述动作生成器为条件变分编码器结构, 由编码器和解码器构成, 其编码器由一个具
有4层全连接层的MLP和两个全连接层分支, 其解码器为一个具有3层全连接层的MLP; 所述
状态‑动作评价器由一个具有3层全连接层的MLP 构成;
在所述子目标约束下的最优动作选择模块的训练阶段, 所述动作生成器的编码器以元
组(s,sg,a,r,s’)为输入, 其中sg为在当前状态s所期望到达的下一子目标状态约束, a为在
当前状态执行的动作 原始值, s’为智能体在状态s下执行完动作a后到达的新状态, r 为智能权 利 要 求 书 2/3 页
3
CN 115437241 A
3
专利 一种针对智能体长程连续控制任务的离线示教学习系统
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:03:53上传分享