说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210788006.4 (22)申请日 2022.07.04 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区 (72)发明人 蔡尚雷 林志赟 王博 韩志敏  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 杨舟涛 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种基于持续强化学习的机械臂避障抓取 方法 (57)摘要 本发明涉及一种基于持续强化学习的机械 臂避障抓取方法, 包括: 获取并执行第一阶段任 务, 当训练周期内获得的奖励达到阈值, 且各训 练周期内所获得的奖励差值位于阈值内时, 执行 第二阶段任务; 获取并执行第二阶段任务, 当训 练周期内获得的奖励达到阈值, 且 各训练周期内 所获得的奖励差值位于阈值内时, 执行第三阶段 任务; 获取并执行第三阶段任务, 当训练周 期内 获得的奖励达到阈值, 且各训练周期内所获得的 奖励差值位于阈值内时, 训练完成; 所述第三阶 段障碍物 其位置随机生成, 本发 明针对实际工业 环境, 结合抓握和避障设置环 境和任务并提出了 一种更有效的状态表示和奖励设计, 从而提高了 机器人在该任务上的学习效果。 权利要求书2页 说明书9页 附图3页 CN 115042185 A 2022.09.13 CN 115042185 A 1.一种基于持续强化学习的机 械臂避障抓取 方法, 其特 征在于, 包括以下步骤: (1)依次执行训练任务, 所述训练任务至少包括难度依次递增的第 一阶段训练任务、 第 二阶段训练任务和第三阶段训练任务; (2)获取避障抓取模型, 所述避障抓取模型通过对执 行训练任务进行深度学习获得; (3)基于获取的避障抓取模型, 输入需要执 行的任务, 实现机 械臂避障抓取。 2.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 获取 避障抓取模型包括: 获取第一阶段任务训练模型, 所述第 一阶段任务训练模型由对执行第 一阶段训练任务 进行深度学习获得, 其中, 执行第一阶段任务时, 当训练周期内获得的奖励达到阈值, 且各 训练周期内所获得的奖励差值 位于阈值内时, 第一阶段任务训练任务完成; 获取第二阶段任务训练模型, 所述第 二阶段任务训练模型由对执行第 二阶段训练任务 进行深度学习获得, 所述第二阶段训练任务由第一阶段任务训练模型执行, 其中, 执行第二 阶段任务时, 当训练周期内获得 的奖励达到阈值, 且各训练周期内所获得的奖励差值位于 阈值内时, 第二阶段任务训练任务完成; 获取第三阶段任务训练模型, 所述第 三阶段任务训练模型由对执行第 三阶段训练任务 进行深度学习获得, 所述第三阶段训练任务由第二阶段任务训练模型执行, 其中, 执行第三 阶段任务时, 当训练周期内获得 的奖励达到阈值, 且各训练周期内所获得的奖励差值位于 阈值内时, 训练完成。 3.根据权利要求2所述的基于持续强化学习的机 械臂避障抓取 方法, 其特 征在于, 所述第一阶段训练任务为设有第 一阶段障碍物的目标物体拾取任务; 且所述第 一阶段 障碍物位置固定; 所述第二阶段训练任务为设有第 二阶段障碍物的目标物体拾取任务, 所述第 二阶段障 碍物位置固定且数量多于所述第一阶段障碍物; 所述第三阶段训练任务为设有第 三阶段障碍物的目标物体拾取任务, 所述第 三阶段障 碍物其位置随机生成, 且障碍物数量 等同于第二阶段障碍物数量。 4.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 执行 训练任务包括: 状态获取, 所述状态获取用于识别机械臂与目标物体和障碍物相对位置, 包括获取机 械臂与障碍物之间的最小距离; 运动控制, 所述运动控制用于控制机械臂运动, 包括将机械臂运动转换为在笛卡尔坐 标系中的位置控制; 奖励获取, 其中, 所述奖励获取为成功完成目标动作的记录 。 5.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 所述 状态获取包括: 将机械臂上的若干连接臂、 末端 执行器和障碍物视为线 段, 每条线 段分为若 干点、 这些机械臂上 的点和障碍物上 的点之间的距离表示机械臂与障碍物之间的距离, 将 机械臂与障碍物之间的最小距离dmin作为状态的第一部分, 机械臂夹爪的两个手指相 对于 末端执行器坐标系下的y轴方向上的位置yf作为状态的第二部分, 目标物体三维空间下的 位置po作为状态的第三部分, 末端执 行器三维空间下的位置pe作为状态的第四部分: S1={dmin, yf, po, pe}权 利 要 求 书 1/2 页 2 CN 115042185 A 2每个状态的范围如下: dmin1, dmin2∈[0, 1.3] yleft∈[0, 0.04], yright∈[‑0.04, 0] Xo∈[‑2, 2], yo∈[‑2, 2], zo∈[‑2, 2] xe∈[‑1.35, 0.35], ye∈[‑0.98, 0.72], ze∈[0.52, 1.82] 其中, dmin1和dmin2分别表示机械臂与两个障碍物之 间的最小距离; yleft和yright分别表示 机械臂夹爪的左右手指相对于末端执行器坐标系下的y轴方向上的位置; xo, yo, zo分别表示 目标物体在末端执行器坐标系下的x、 y和z轴上的位置; xe, ye, ze分别表示末端执行器在世 界坐标系下的x、 y和z轴上的位置 。 6.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 所述 运动控制 包括: 采用操作空间控制(OSC)将机械臂运动转换为在笛卡尔坐标系中的位置控 制, 机械臂的动作空间a为: a=(Δx, Δy, Δ z, Δg), Δx, Δy, Δ z, Δg∈[ ‑1, 1] 其中, Δx、 Δy和Δz表示机械臂的末端执行器在笛卡尔坐标系中x、 y和z轴上的偏移 量, Δg为抓手开合状态, 抓手即为机械臂末端 执行器上的夹具, Δg<0, 则夹具关闭; Δg= 0, 则夹具保持不变, Δg>0, 则夹具打开。 7.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 所述 奖励获取包括到 达、 抓取、 提升和悬停四个阶段的奖励: rreach=α *(1‑tanh( λ*d1)) rgrasp=β rlift=rgrasp+(γ‑β )*(1‑tanh[ η*(zset‑zobject)]) robstacle=k rtime= τ 其中rreach, rgrasp, rlift, rhover分别代表到达、 抓握、 举起和悬停的奖励; robstacle表示机械 臂和障碍物发生碰撞的惩罚; rtime表示未完成任务 前受到的时间惩罚; d1表示从夹具到目标 对象的笛卡尔距离; zset、 zobject分别表示设定点的高度和要到达的物体的高度; d2表示目标 物体到目标点的笛卡尔距离, rhover1, rhover2分别表示两种情况的悬停的奖励; α, β, γ, μ, λ, η 分别表示到达、 抓握、 举起、 悬停几个奖励公 式中设定的系数; κ 表 示碰撞惩罚设定的系数; τ 表示时间惩罚设定的系数。 8.根据权利要求3所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 所述 第一阶段障碍物有一个; 所述第二阶段障碍物有两个, 所述第三阶段障碍物有两个。 9.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法, 其特征在于, 所述 深度学习其 算法采用Soft  Actor Critic算法执 行。权 利 要 求 书 2/2 页 3 CN 115042185 A 3

.PDF文档 专利 一种基于持续强化学习的机械臂避障抓取方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于持续强化学习的机械臂避障抓取方法 第 1 页 专利 一种基于持续强化学习的机械臂避障抓取方法 第 2 页 专利 一种基于持续强化学习的机械臂避障抓取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:06:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。