说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210859754.7 (22)申请日 2022.07.21 (71)申请人 东南大学 地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人 李俊 侯言旭 (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 许小莉 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于深度强化学习的混杂场景机械臂 精细抓取方法 (57)摘要 本发明提出一种基于深度强化学习的混杂 场景机械臂精细抓取方法, 包括如下步骤: 步骤 S1: 基于深度强化学习使机械臂不断地在抓取环 境中尝试抓取来训练精细抓取网络, 其中使用对 跖度和判定是否抓取成功构成深度强化学习的 奖励; 步骤S2: 利用相机采集工作场景中的图像 信息并按照相机外参矩 阵将采集到的彩色图像 Ic和深度信息Id转换为彩色俯视图Ihc和深度俯 视图Ihd; 步骤S3:将深度俯视图Ihc和彩色俯视图 Ihd输入步骤S1得到的精细抓取网络, 输出多通 道的抓取示力图, 根据生 成的多通道的抓取示力 图选择最优抓取动作G; 步骤S4:将最优抓取动作 G由运算服务器发送给机器人控制器, 机械臂规 划轨迹执行最优抓取动作G。 本发明能够在混杂 环境下执行对跖抓取。 权利要求书3页 说明书8页 附图1页 CN 114986519 A 2022.09.02 CN 114986519 A 1.一种基于深度强化学习的混杂场景机械臂精细抓取方法, 其特征在于, 包括如下步 骤: 步骤S1: 基于深度强化学习 使机械臂不断地在抓取环境中尝试抓取来训练精细抓取网 络, 其中使用对跖度和判定是否抓取成功构成深度强化学习中的奖励值; 步骤S2: 利用相机 采集工作场景中的图像信息并按照相机外 参矩阵将采集到的彩色图像 Ic和深度信息 Id转换 为彩色俯视图Ihc和深度俯视图Ihd; 步骤S3: 将深度俯视图Ihc和彩色俯视图Ihd输入步骤S1得到的精细抓取网络, 输出多通 道的抓取示力图, 根据生成的多通道的抓取示力图选择最优抓取动作G; 步骤S4: 将最优抓取动作G由服务器发送给机器人控制器, 机械臂规划轨迹执行最优抓 取动作G。 2.根据权利要求1所述的一种基于深度强化学习的混杂场景机械臂精细抓取方法, 其 特征在于, 步骤S1所述的基于深度强化学习训练精细抓取网络, 具体包括以下步骤: 步骤1‑1: 搭建精细抓取网络模型Qθ, θ表示网络的模型参数, 精细抓取网络具有与输入 图像相同的尺寸, 输出多通道抓取示力图, 多通道的抓取示力图由N个与输入图像相同尺 寸 的代表最高抓取成功 率的热力图组成, 不同热力图指示手爪绕Z ‑轴的不同旋转角度, 则N个 热力图共能表示 N个抓取方向, 且相邻两个 手爪绕Z‑轴的旋转角度为3 60°/N; 步骤1‑2: 捕获抓取工作场景中的图像信 息并按照相机外参矩阵将采集的图像信息I= (Ic, Id), 其中Ic表示彩色图像, Id表示深度信息, 并将Ic和Id转换为彩色俯视图Ihc和深度俯 视图Ihd; 步骤1‑3: 将深度俯视图Ihc和彩色俯视图Ihd输入精细抓取网络输出多通道的抓取示力 图Q; 步骤1‑4: 在Q中选取像素值最大点所对应的抓取动作作 为最优抓取动作G=(T, φ), 其 中T是手爪三维位置(x, y, z), φ分别是手爪的三维抓取位置绕Z ‑轴旋转的角度; 步骤1‑5: 机器人根据最优抓取动作G执行重 复抓取采样操作M。 , 重复抓取采样操作M的 过程如下: 手爪 先运行到垂 直于目标位置T 上方l处, 并旋转角度φ, 再以直线轨迹移动到目 标位置T处, 依据手爪闭合情况判定是否成功 抓取物体, 如果成功 抓取则抓起物体仍以角度 φ移动到T上方l处, 若此时物体未掉落, 则判定此次抓取成功, 记标志位g=1, 并以相同的 轨迹放回物体至T处; 捕获动作后的工作空间图像信息 将彩色图像 和深度 信息 并分别转换为深度俯视图 和彩色俯视图 若此次抓取成功则再次执行抓取动 作G将放回的物体移出工作空间; 若抓取失败或在移动至T 上方l处时物体掉落, 均判定抓取 失败, 记标志位g=0; 步骤1‑6: 计算I和I+之间的图像差异得到图像差异度P, 包括但不限于采用公式(1)计 算: 其中, B是图像的二 值化操作, H和W分别是I的长和宽; 步骤1‑7: 将图像差异度P输入一个非增单调函数得到对跖度A, 包括但不限于采用公式 (2)来计算A:权 利 要 求 书 1/3 页 2 CN 114986519 A 2A=‑P+1 (2) 步骤1‑8: 联合对跖度A和抓取成功与否的标志位g得到抓取奖励r, 包括但不限于采用 公式(3)来计算r: 其中 是一阶奖励, 是基准奖励, 二 者满足e<r0; 步骤1‑9: 基于深度强化学习中的动作值 函数迭代公式更新精细抓取网络, 即 其中, 是学习率, 是损失函数, 包括但不限于采用均方根 误差函数; 其中γ是折扣因子, Qθ‑是Qθ的目标网络, 和Qθ具有相同的网络结构, 延 迟的网络参数θ ‑; 步骤1‑10: 判断是否达到设置的最大迭代步数, 如果未达到则回到步骤1 ‑2, 如果达到 则输出训练完成的精细对跖抓取网络Qθ。 3.根据权利要求1所述的一种基于深度强化学习的混杂场景机械臂精细抓取方法, 其 特征在于, 步骤S2中所述将采集到的彩色图像Ic和深度信息Id转换为彩色俯视图Ihc和深度 俯视图Ihd, 包括以下步骤: 步骤2‑1: 通过手眼标定获取固定位置相机的内外参矩阵; 步骤2‑2: 相机采集图像时应将 深度图像 配准到彩色图像上; 步骤2‑3: 先利用相机内外参矩阵将深度图像转换为3D点云图像, 通过投影的方法得到 工作空间内部的深度俯视图和彩色俯视图。 4.根据权利要求1所述的一种基于深度强化学习的混杂场景机械臂精细抓取方法, 其 特征在于, 步骤S3所述 根据生成的多通道的抓取示力图选择最优抓取动作G包括以下步骤: 步骤3‑1: 搜索找到多通道的抓取示力图Q中像素值 最大的点的索引, 其中, c是最大像素值出现在的通道索引, 和 分别是该通道热力图中最大点的位置; 步骤3‑2: 根据c, 和抓取空间的深度图通过图像与机械臂坐标变换矩阵得到抓取空 间中的三维坐标T和绕Z ‑轴的转角φ 然后综合 抓取空间中的三维坐标T和绕Z ‑轴的转角φ得到最优抓取动作G=(T, φ)。 5.根据权利要求1所述的一种基于深度强化学习的混杂场景机械臂精细抓取方法, 其 特征在于, 步骤S4所述机 械臂规划轨 迹执行最优抓取动作G具体包括以下步骤: 步骤4‑1, 运算服务器与机 械臂控制器之间建立 通信; 步骤4‑2, 依据当前机械臂位姿和最优抓取动作G在关节空间中规划轨迹生成抓取物体权 利 要 求 书 2/3 页 3 CN 114986519 A 3
专利 一种基于深度强化学习的混杂场景机械臂精细抓取方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 16:06:58
上传分享
举报
下载
原文档
(684.2 KB)
分享
友情链接
ISO IEC 21836 2020 Information technology — Data centres — Server energy eff.pdf
ISO 22553-12 2020 Paints and varnishes — Electro-deposition coatings — Part 12 Sedimentatio.pdf
ISO 19723-2 2018 Road vehicles Liquefied natural gas (LNG) fuel systems Part 2 Test methods.pdf
ISO 2811-3 2023 Paints and varnishes — Determination of density — Part 3 Oscillation met.pdf
ISO 7056 1981 Plastics laboratory ware — Beakers.pdf
ISO 7808-1992Plastics. Thermosetting moulding materials. Determination of transfer flow first editio.pdf
ISO 25901-2 2022 Welding and allied processes — Vocabulary — Part 2 Health and safety.pdf
ISO 6632-1981Fruits,vegetables and derived products. Determination of volatile acidity first edition.pdf
ISO 8504-4 2022 Preparation of steel substrates before application of paints and related products — Surface preparation methods — Part 4 Acid pickling.pdf
ISO 41018 2022 Facility management — Development of a facility management policy.pdf
GB-T 16980.1-1997 工业自动化 车间生产 第1部分 标准化参考模型和确定需求的方法论.pdf
GB-T 420-2009 纺织品 色牢度试验 颜料印染纺织品耐刷洗色牢度.pdf
GB-T 30415-2013 钟表 功能和非功能宝石.pdf
GB-T 4214.14-2021 家用和类似用途电器噪声测试方法 电冰箱、冷冻食品储藏箱和食品冷冻箱的特殊要求.pdf
GB-T 25047-2016 金属材料 管 环扩张试验方法.pdf
GB 25433-2010 密闭式炼胶机炼塑机安全要求.pdf
GB-T 19816.4-2005 涂覆涂料前钢材表面处理 喷射清理用金属磨料的试验方法 第4部分 表观密度的测定.pdf
GB-T 40740-2021 堆焊工艺评定试验.pdf
GB-T 17951-2022 硬磁材料一般技术条件.pdf
GB-T 6326-2014 轮胎术语及其定义.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(684.2 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。