说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211001178.9 (22)申请日 2022.08.19 (71)申请人 北京控制工程研究所 地址 100080 北京市海淀区北京272 9信箱 (72)发明人 刘昊 黄煌 汤亮 谢心如  (74)专利代理 机构 中国航天科技专利中心 11009 专利代理师 马全亮 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于图像域的机械臂高效操控归置学 习奖励训练方法 (57)摘要 本发明公开了一种基于图像域的机械臂高 效操控归置学习奖励训练方法, 实现杂乱场景中 机械臂自主归置物体任务。 该任务中, 由于空间 受限、 复杂碰撞等约束的存在, 导致终止状态是 不可预测的, 从而对奖励函数的设计带来了困 难。 本专利对强化学习的奖励是 “步骤奖励 ”和 “完成奖励 ”的组合, 通过在图像域中合并来量化 终端状态的性能, 这将引导终端状态收敛到一个 更好的域, 而不是特定的值。 以鼓励快速排列盒 子中分散的对象, 同时最小化对象之间的间隙, 对不同数量、 不规则形状的物体以及间断情况具 有更好的适应性。 权利要求书3页 说明书6页 附图2页 CN 115302511 A 2022.11.08 CN 115302511 A 1.一种基于图像域的机 械臂高效操控 归置学习奖励训练方法, 其特 征在于: 包括: 步骤1: 设计 应用场景, 通过rgbd相机对工作空间进行4 通道RGBD ‑heightmap采集; 步骤2: 选择 单通道D‑heightmap 在图像域进行 奖励函数总体设计; 步骤3: 对 步骤2中的单步奖励进行设计: 学习的单步奖励rstep包括移动奖励rchange、 碰撞 奖励rcontact、 重复奖励rrepeat; 步骤4: 对步骤2中的终止奖励进行设计: 学习的终止奖励rterminal包括任务完成终止奖 励rdone和序列动作奖励rreq; 步骤5: 把步骤4和步骤5的奖励结合起来, 获得网络学习的奖励计算函数为rt=rstep+ rterminal; 步骤6: 结合步骤1 ‑5, 搭建强化仿真学习训练工程进行学习训练, 并将训练好的网络进 行物理迁移试验。 2.根据权利要求1所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 应用场景具体为: 将 长方体有限容积容器作为机械臂工作空间, 随机放置任意 个数的物体; 通过rgbd相机对工作空间进行4通道RGBD图像采集, 并根据相机内参将图像转成俯视 方向的4通道RGBD ‑heightmap, 该4通道RGBD ‑heightmap作为神经网络状态输入, 通过 Resnet‑50将原始图像提取成高维特 征向量, 并基于强化学习算法进行 学习。 3.根据权利要求2所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 对强化学习算法设计单步奖励rstep和终止奖励rterminal的组合奖励, 以鼓励快 速归置盒子中分散的对象, 同时最小化对象之间的间隙。 4.根据权利要求3所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 所述步骤3对单步奖励进行设计, 具体为: 学习的单步奖励rstep包括移动奖励 rchange、 碰撞奖励rcontact、 重复奖励rrepeat; (1)移动奖励设计: 通过比较前后两个环境状态D ‑heightmap差异来判 断物体是否移 动, 如果移动了, 那么移动奖励rchange=0.1; (2)碰撞奖励设计: 当检测到当前动作会导致手爪与物体有垂直方向的碰撞时, 施加碰 撞奖励rcontact=‑0.5, 通过检测动作点所对应的D ‑heightmap是否存在物体进行判断; (3)重复奖励设计: 如果同一个动作重复超过三次, 则给予重复奖励rrepeat=‑1.5; (4)当移动奖励rchange、 碰撞奖励rcontact、 重复奖励rrepeat三个奖励均不满足时, 单步奖励 为0。 5.根据权利要求4所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 单步奖励rstep具体为: 权 利 要 求 书 1/3 页 2 CN 115302511 A 26.根据权利要求3所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 所述 步骤4对终止奖励rterminal进行设计, 具体为: (1)任务完成终止奖励rdone设计: 任务完成判定需要满足连通域检测、 异常情况检测二 个约束条件, 只有二个条件同时满足时, 认为任务完成, 给予rdone=3; (2)序列动作奖励rreq设计: 设计序列动作奖励函数 rseq=4‑(N‑1)×0.25 其中, 奖励值随着动作次数N∈(0,16)的增 加而减小; (3)当任务完成终止奖励rdone和序列动作奖励rreq均不满足或者超出最大动作步数时, 认为奖励为0 。 7.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 终止奖励rterminal具体为: 8.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 所述连通 域检测, 具体为: (a)通过容器工作空间以及尺寸, 去除容器外部深度图, 并对每个像素点的深度值d(x, y)进行去噪处 理, 当d(x, y)>0.01m时, 将该值赋值 为1, 否则赋值 为0, 得到二 值图像map1; (b)以池化核为2, 步长为2, 对(a)中的图像进行最大池化处理, 得到图像map2, 消初间 隙和误差并降低检测遍历区域; (c)初始化连通 域个数num_compo nent=0, 邻域检测队列为空neighbors=[]; (d)对(b)中的map2中每个像素点对应的值p(x, y)进行遍历, 以像素坐标系原点为起始 点, 判断p(x, y)是否为1, 如果为1, 将p(x, y)赋值为0, 同时num_component个数加1, 并将p (x, y)点加入邻域队列neighbors中; (e)从(d)中邻域队列nei ghbors队尾取点, 检测其上下左右邻域点, 如果值为1, 则将该 点赋值为0的同时再次放入邻域队列neighbors, 并再次进行邻域检测, 直至neighbors为 空; (f)输出连通域num_component个数, 如果num_component=1, 则认为物体被归置到一 起, 否则不满足连通 域检测。 9.根据权利要求6所述的一种基于图像域的机械臂高效操控归置学习奖励训练方法, 其特征在于: 所述异常情况检测, 具体为: 当达到归置终止状态时, 深度heighmap中不存在 异常的高度值。 10.一种基于图像域的机 械臂高效操控 归置学习奖励训练系统, 其特 征在于: 包括: 应用场景设计模块: 设计应用场景, 通过rgbd相机对工作空间进行4通道RGBD ‑ heightmap采集; 奖励函数设计模块: 选择单通道D ‑heightmap在图像域进行奖励函数总体设计; 对单步 奖励进行设计: 学习的单步奖励rstep包括移动奖励rchange、 碰撞奖励rcontact、 重复奖励rrepeat; 对终止奖励 进行设计: 学习的终止奖励rterminal包括任务完成终止奖励rdone和序列动作奖励 rreq;权 利 要 求 书 2/3 页 3 CN 115302511 A 3

.PDF文档 专利 一种基于图像域的机械臂高效操控归置学习奖励训练方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图像域的机械臂高效操控归置学习奖励训练方法 第 1 页 专利 一种基于图像域的机械臂高效操控归置学习奖励训练方法 第 2 页 专利 一种基于图像域的机械臂高效操控归置学习奖励训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:06:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。