说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211228657.4 (22)申请日 2022.10.09 (71)申请人 清华大学 地址 100084 北京市海淀区清华园1号 (72)发明人 孙富春 刘乃军  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 王萌 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 机器人操作技能的虚实迁移学习方法、 装置 及存储介质 (57)摘要 本公开实施例提供的机器人操作技能的虚 实迁移学习方法、 装置及存储介质, 包括: 构建3C 装配操作的仿真环境, 采用域随机化方法衍生出 多种源域仿真训练环境; 针对各源域仿真训练环 境, 随机初始化不同参数的技能策略神经网络, 融合基于强化学习形式的自学习及监督学习形 式的互学习方法对技能策略神经网络进行训练; 从训练完毕的技能策略神经网络中选取任务执 行成功率较高的多个衍生技能策略进行集成, 并 通过策略蒸馏得到蒸馏技能策略; 结合风格转化 方法将源域虚拟环境训练得到的蒸馏技能策略 迁移到目标域真实环境3C装配操作场景中。 本公 开可实现对3C装配操作技能的高效虚实迁移, 降 低3C装配操作技能的学习成本, 提升智能化程 度。 权利要求书3页 说明书11页 附图2页 CN 115533905 A 2022.12.30 CN 115533905 A 1.一种机器人操作技能的虚实迁移学习方法, 其特 征在于, 包括: 针对面向3C装配的目标域机器人所在的真实环境, 构建面向3C装配的源域机器人的仿 真环境, 采用域随机化方法基于所述仿真环境 衍生出多种源域仿真训练环境; 构建技能策略神经网络, 针对衍生出的不同源域仿真训练环境, 分别随机初始化技能 策略神经网络的参数得到对应不同的衍生技能策略神经网络, 融合基于强化学习形式的自 学习及监督学习形式的互学习方法对各衍生技能策略神经网络进 行训练, 得到训练完 毕的 多个衍生技能策略神经网络; 将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试, 利用表现性 能最优的若干个衍生技能策略得到集成技能策略, 对所述集成技能策略通过策略蒸馏得到 蒸馏技能策略; 将所述蒸馏技能策略部署到真实环境中时, 采集每时刻的真实环境图像和目标域机器 人的状态向量, 将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像, 将所述风格图像和目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执 行, 从而实现机器人操作技能的虚实迁移。 2.根据权利要求1所述的虚实迁移学习方法, 其特征在于, 所述仿真环境中各物体的尺 寸与所述真实环境中相应物体的尺寸相同, 所述仿 真环境中与纹理渲染相关的属性均可改 变, 所述仿真环境中与力学相关的属性均可改变。 3.根据权利要求2所述的虚实迁移学习方法, 其特征在于, 多种所述源域仿真训练环境 是通过随机改变所述仿真环境中与 纹理渲染相关的属 性和与力学相关的属 性所衍生出的 仿真训练环境。 4.根据权利要求1所述的虚实迁移学习方法, 其特征在于, 构建的所述技 能策略神经网 络包括RGB卷积网络模块、 深度图卷积网络模块、 第一全连接网络模块和第二全连接网络模 块, t时刻所述技能策略神经网络的输入和输出分别为源域机器人与仿真环境交互的状态 st和源域机器人的动作向量at, 根据所述动作向量at控制源域机器人在时刻t执行的运动, 状态st包括时刻t源域机器人的状态向量、 以及源域仿真训练环境的RGB图像与深度图像; 将所述源域仿真训练环境的RGB图像与深度图像分别输入到所述RGB卷积网络模块和所述 深度图卷积网络模块中, 得到RGB图像特征向量和深度图像特征向量, 将所述源域机器人的 状态向量输入到所述第一全连接神经网络模块中, 得到第一特征向量, 将所述 RGB图像特征 向量、 所述深度图像特征向量和所述第一特征向量拼接后输入到所述第二全连接神经网络 模块中, 得到所述源域机器人的动作向量at。 5.根据权利要求4所述的虚实迁移学习方法, 其特征在于, 设共生成K个衍生技能策略 神经网络, 所述对各衍 生技能策略神经网络进行训练, 包括: 当技能策略优化的迭代次数i<G时, 采用基于强化学习形式的自学习通过最大化下式 对每个衍生技能策略神经网络进行训练: 其中, α为权重系数, γ为折扣因子, γt表示折扣因子γ 的t次方, r(st,at)为源域机器 人在状态st下执行动作向量at时得到的奖励, 为源域机器人执行各衍生技能策略 过程权 利 要 求 书 1/3 页 2 CN 115533905 A 2中记录的轨迹序列, k=1,2, …,K, 为各衍生技能策略 的熵, 表示基于各衍生 技能策略 记录的轨 迹序列 计算的期望值; 待技能策略优化的迭代次数i达到G后, 技能策略优化迭代次数i每增加m次后, 测试K个 衍生技能策略 的执行成功率, 对K个衍生技能策略 按照执行成功率的大小进行降序 排列, 选取前P个衍生技能策略 组成优选策略集合ωp, p=1,2, …,P,P<K, 并由优选衍生 技能策略集合ωp中的P个衍生技能策略组成混合技能策略; 各衍生技能策略 基于自身与 仿真环境交互的状态, 通过无模 型强化学习的方法进 行探索形式的自学习, 同时, 各衍生技 能策略 基于监督学习的形式向混合 技能策略学习, 具体公式如下: 其中, β 为权 重系数, πmix(st)为优选策略集 合ωp中P个技能策略组成的混合 技能策略。 6.根据权利要求5所述的虚实迁移学习方法, 其特征在于, 权重系数α、 β 随迭代次数i的 变化按照下式设定: 其中, α0为权重系数α 的初始值, αf为小于α0的常数, β0为权重系数β 的初始值, βf为大于 β0的常数, I 为大于G的常数。 7.根据权利要求1所述的虚实迁移学习方法, 其特征在于, 按照下式得到所述集成技 能 策略: 其中, πens(s)为集成技能策略, 为将训练完毕的所有衍生技能策略神经网络在真 实3C装配任务中进 行测试所选取的表现性能最优的Q个衍生技能策略, s泛指为技能策略与 源域仿真环境交 互得到的状态; 按照下式将所述 集成技能策略πens(s)进行蒸馏得到蒸馏技能策略πf(s): 其中, KL(·||·)为散度求解函数, 为基于集成技能策 略与源域仿真环境交互得 到的状态计算的期望值。权 利 要 求 书 2/3 页 3 CN 115533905 A 3

.PDF文档 专利 机器人操作技能的虚实迁移学习方法、装置及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 机器人操作技能的虚实迁移学习方法、装置及存储介质 第 1 页 专利 机器人操作技能的虚实迁移学习方法、装置及存储介质 第 2 页 专利 机器人操作技能的虚实迁移学习方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:13:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。