专利机器人操作技能的虚实迁移学习方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211228657.4 (22)申请日 2022.10.09 (71)申请人清华大学地址 100084 北京市海淀区清华园1号 (72)发明人孙富春　刘乃军　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师王萌 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称机器人操作技能的虚实迁移学习方法、装置及存储介质 (57)摘要本公开实施例提供的机器人操作技能的虚实迁移学习方法、装置及存储介质，包括：构建3C 装配操作的仿真环境，采用域随机化方法衍生出多种源域仿真训练环境；针对各源域仿真训练环境，随机初始化不同参数的技能策略神经网络，融合基于强化学习形式的自学习及监督学习形式的互学习方法对技能策略神经网络进行训练；从训练完毕的技能策略神经网络中选取任务执行成功率较高的多个衍生技能策略进行集成，并通过策略蒸馏得到蒸馏技能策略；结合风格转化方法将源域虚拟环境训练得到的蒸馏技能策略迁移到目标域真实环境3C装配操作场景中。本公开可实现对3C装配操作技能的高效虚实迁移，降低3C装配操作技能的学习成本，提升智能化程度。权利要求书3页说明书11页附图2页 CN 115533905 A 2022.12.30 CN 115533905 A 1.一种机器人操作技能的虚实迁移学习方法，其特征在于，包括：针对面向3C装配的目标域机器人所在的真实环境，构建面向3C装配的源域机器人的仿真环境，采用域随机化方法基于所述仿真环境衍生出多种源域仿真训练环境；构建技能策略神经网络，针对衍生出的不同源域仿真训练环境，分别随机初始化技能策略神经网络的参数得到对应不同的衍生技能策略神经网络，融合基于强化学习形式的自学习及监督学习形式的互学习方法对各衍生技能策略神经网络进行训练，得到训练完毕的多个衍生技能策略神经网络；将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试，利用表现性能最优的若干个衍生技能策略得到集成技能策略，对所述集成技能策略通过策略蒸馏得到蒸馏技能策略；将所述蒸馏技能策略部署到真实环境中时，采集每时刻的真实环境图像和目标域机器人的状态向量，将所述真实环境图像的风格转换为仿真环境图像的风格后得到风格图像，将所述风格图像和目标域机器人的状态向量输入到所述蒸馏技能策略并在真实环境中执行，从而实现机器人操作技能的虚实迁移。 2.根据权利要求1所述的虚实迁移学习方法，其特征在于，所述仿真环境中各物体的尺寸与所述真实环境中相应物体的尺寸相同，所述仿真环境中与纹理渲染相关的属性均可改变，所述仿真环境中与力学相关的属性均可改变。 3.根据权利要求2所述的虚实迁移学习方法，其特征在于，多种所述源域仿真训练环境是通过随机改变所述仿真环境中与纹理渲染相关的属性和与力学相关的属性所衍生出的仿真训练环境。 4.根据权利要求1所述的虚实迁移学习方法，其特征在于，构建的所述技能策略神经网络包括RGB卷积网络模块、深度图卷积网络模块、第一全连接网络模块和第二全连接网络模块， t时刻所述技能策略神经网络的输入和输出分别为源域机器人与仿真环境交互的状态 st和源域机器人的动作向量at，根据所述动作向量at控制源域机器人在时刻t执行的运动，状态st包括时刻t源域机器人的状态向量、以及源域仿真训练环境的RGB图像与深度图像；将所述源域仿真训练环境的RGB图像与深度图像分别输入到所述RGB卷积网络模块和所述深度图卷积网络模块中，得到RGB图像特征向量和深度图像特征向量，将所述源域机器人的状态向量输入到所述第一全连接神经网络模块中，得到第一特征向量，将所述 RGB图像特征向量、所述深度图像特征向量和所述第一特征向量拼接后输入到所述第二全连接神经网络模块中，得到所述源域机器人的动作向量at。 5.根据权利要求4所述的虚实迁移学习方法，其特征在于，设共生成K个衍生技能策略神经网络，所述对各衍生技能策略神经网络进行训练，包括：当技能策略优化的迭代次数i<G时，采用基于强化学习形式的自学习通过最大化下式对每个衍生技能策略神经网络进行训练：其中， α为权重系数， γ为折扣因子， γt表示折扣因子γ 的t次方， r(st,at)为源域机器人在状态st下执行动作向量at时得到的奖励，为源域机器人执行各衍生技能策略过程权　利　要　求　书 1/3 页 2 CN 115533905 A 2中记录的轨迹序列， k＝1,2, …,K，为各衍生技能策略的熵，表示基于各衍生技能策略记录的轨迹序列计算的期望值；待技能策略优化的迭代次数i达到G后，技能策略优化迭代次数i每增加m次后，测试K个衍生技能策略的执行成功率，对K个衍生技能策略按照执行成功率的大小进行降序排列，选取前P个衍生技能策略组成优选策略集合ωp， p＝1,2, …,P,P<K，并由优选衍生技能策略集合ωp中的P个衍生技能策略组成混合技能策略；各衍生技能策略基于自身与仿真环境交互的状态，通过无模型强化学习的方法进行探索形式的自学习，同时，各衍生技能策略基于监督学习的形式向混合技能策略学习，具体公式如下：其中， β 为权重系数， πmix(st)为优选策略集合ωp中P个技能策略组成的混合技能策略。 6.根据权利要求5所述的虚实迁移学习方法，其特征在于，权重系数α、 β 随迭代次数i的变化按照下式设定：其中， α0为权重系数α 的初始值， αf为小于α0的常数， β0为权重系数β 的初始值， βf为大于 β0的常数， I 为大于G的常数。 7.根据权利要求1所述的虚实迁移学习方法，其特征在于，按照下式得到所述集成技能策略：其中， πens(s)为集成技能策略，为将训练完毕的所有衍生技能策略神经网络在真实3C装配任务中进行测试所选取的表现性能最优的Q个衍生技能策略， s泛指为技能策略与源域仿真环境交互得到的状态；按照下式将所述集成技能策略πens(s)进行蒸馏得到蒸馏技能策略πf(s)：其中， KL(·||·)为散度求解函数，为基于集成技能策略与源域仿真环境交互得到的状态计算的期望值。权　利　要　求　书 2/3 页 3 CN 115533905 A 3

专利 机器人操作技能的虚实迁移学习方法、装置及存储介质

专利机器人操作技能的虚实迁移学习方法、装置及存储介质