专利一种基于图像域的机械臂高效操控归置学习奖励训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211001178.9 (22)申请日 2022.08.19 (71)申请人北京控制工程研究所地址 100080 北京市海淀区北京272 9信箱 (72)发明人刘昊　黄煌　汤亮　谢心如　 (74)专利代理机构中国航天科技专利中心 11009 专利代理师马全亮 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于图像域的机械臂高效操控归置学习奖励训练方法 (57)摘要本发明公开了一种基于图像域的机械臂高效操控归置学习奖励训练方法，实现杂乱场景中机械臂自主归置物体任务。该任务中，由于空间受限、复杂碰撞等约束的存在，导致终止状态是不可预测的，从而对奖励函数的设计带来了困难。本专利对强化学习的奖励是 “步骤奖励 ”和 “完成奖励 ”的组合，通过在图像域中合并来量化终端状态的性能，这将引导终端状态收敛到一个更好的域，而不是特定的值。以鼓励快速排列盒子中分散的对象，同时最小化对象之间的间隙，对不同数量、不规则形状的物体以及间断情况具有更好的适应性。权利要求书3页说明书6页附图2页 CN 115302511 A 2022.11.08 CN 115302511 A 1.一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：包括：步骤1：设计应用场景，通过rgbd相机对工作空间进行4 通道RGBD ‑heightmap采集；步骤2：选择单通道D‑heightmap 在图像域进行奖励函数总体设计；步骤3：对步骤2中的单步奖励进行设计：学习的单步奖励rstep包括移动奖励rchange、碰撞奖励rcontact、重复奖励rrepeat；步骤4：对步骤2中的终止奖励进行设计：学习的终止奖励rterminal包括任务完成终止奖励rdone和序列动作奖励rreq；步骤5：把步骤4和步骤5的奖励结合起来，获得网络学习的奖励计算函数为rt＝rstep+ rterminal；步骤6：结合步骤1 ‑5，搭建强化仿真学习训练工程进行学习训练，并将训练好的网络进行物理迁移试验。 2.根据权利要求1所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：应用场景具体为：将长方体有限容积容器作为机械臂工作空间，随机放置任意个数的物体；通过rgbd相机对工作空间进行4通道RGBD图像采集，并根据相机内参将图像转成俯视方向的4通道RGBD ‑heightmap，该4通道RGBD ‑heightmap作为神经网络状态输入，通过 Resnet‑50将原始图像提取成高维特征向量，并基于强化学习算法进行学习。 3.根据权利要求2所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：对强化学习算法设计单步奖励rstep和终止奖励rterminal的组合奖励，以鼓励快速归置盒子中分散的对象，同时最小化对象之间的间隙。 4.根据权利要求3所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：所述步骤3对单步奖励进行设计，具体为：学习的单步奖励rstep包括移动奖励 rchange、碰撞奖励rcontact、重复奖励rrepeat； (1)移动奖励设计：通过比较前后两个环境状态D ‑heightmap差异来判断物体是否移动，如果移动了，那么移动奖励rchange＝0.1； (2)碰撞奖励设计：当检测到当前动作会导致手爪与物体有垂直方向的碰撞时，施加碰撞奖励rcontact＝‑0.5，通过检测动作点所对应的D ‑heightmap是否存在物体进行判断； (3)重复奖励设计：如果同一个动作重复超过三次，则给予重复奖励rrepeat＝‑1.5； (4)当移动奖励rchange、碰撞奖励rcontact、重复奖励rrepeat三个奖励均不满足时，单步奖励为0。 5.根据权利要求4所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：单步奖励rstep具体为：权　利　要　求　书 1/3 页 2 CN 115302511 A 26.根据权利要求3所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：所述步骤4对终止奖励rterminal进行设计，具体为： (1)任务完成终止奖励rdone设计：任务完成判定需要满足连通域检测、异常情况检测二个约束条件，只有二个条件同时满足时，认为任务完成，给予rdone＝3； (2)序列动作奖励rreq设计：设计序列动作奖励函数 rseq＝4‑(N‑1)×0.25 其中，奖励值随着动作次数N∈(0,16)的增加而减小； (3)当任务完成终止奖励rdone和序列动作奖励rreq均不满足或者超出最大动作步数时，认为奖励为0 。 7.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：终止奖励rterminal具体为： 8.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：所述连通域检测，具体为： (a)通过容器工作空间以及尺寸，去除容器外部深度图，并对每个像素点的深度值d(x， y)进行去噪处理，当d(x， y)>0.01m时，将该值赋值为1，否则赋值为0，得到二值图像map1； (b)以池化核为2，步长为2，对(a)中的图像进行最大池化处理，得到图像map2，消初间隙和误差并降低检测遍历区域； (c)初始化连通域个数num_compo nent＝0，邻域检测队列为空neighbors＝[]； (d)对(b)中的map2中每个像素点对应的值p(x， y)进行遍历，以像素坐标系原点为起始点，判断p(x， y)是否为1，如果为1，将p(x， y)赋值为0，同时num_component个数加1，并将p (x， y)点加入邻域队列neighbors中； (e)从(d)中邻域队列nei ghbors队尾取点，检测其上下左右邻域点，如果值为1，则将该点赋值为0的同时再次放入邻域队列neighbors，并再次进行邻域检测，直至neighbors为空； (f)输出连通域num_component个数，如果num_component＝1，则认为物体被归置到一起，否则不满足连通域检测。 9.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法，其特征在于：所述异常情况检测，具体为：当达到归置终止状态时，深度heighmap中不存在异常的高度值。 10.一种基于图像域的机械臂高效操控归置学习奖励训练系统，其特征在于：包括：应用场景设计模块：设计应用场景，通过rgbd相机对工作空间进行4通道RGBD ‑ heightmap采集；奖励函数设计模块：选择单通道D ‑heightmap在图像域进行奖励函数总体设计；对单步奖励进行设计：学习的单步奖励rstep包括移动奖励rchange、碰撞奖励rcontact、重复奖励rrepeat；对终止奖励进行设计：学习的终止奖励rterminal包括任务完成终止奖励rdone和序列动作奖励 rreq；权　利　要　求　书 2/3 页 3 CN 115302511 A 3

专利 一种基于图像域的机械臂高效操控归置学习奖励训练方法

专利一种基于图像域的机械臂高效操控归置学习奖励训练方法