专利一种基于持续强化学习的机械臂避障抓取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210788006.4 (22)申请日 2022.07.04 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区 (72)发明人蔡尚雷　林志赟　王博　韩志敏　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师杨舟涛 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于持续强化学习的机械臂避障抓取方法 (57)摘要本发明涉及一种基于持续强化学习的机械臂避障抓取方法，包括：获取并执行第一阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，执行第二阶段任务；获取并执行第二阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，执行第三阶段任务；获取并执行第三阶段任务，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，训练完成；所述第三阶段障碍物其位置随机生成，本发明针对实际工业环境，结合抓握和避障设置环境和任务并提出了一种更有效的状态表示和奖励设计，从而提高了机器人在该任务上的学习效果。权利要求书2页说明书9页附图3页 CN 115042185 A 2022.09.13 CN 115042185 A 1.一种基于持续强化学习的机械臂避障抓取方法，其特征在于，包括以下步骤： (1)依次执行训练任务，所述训练任务至少包括难度依次递增的第一阶段训练任务、第二阶段训练任务和第三阶段训练任务； (2)获取避障抓取模型，所述避障抓取模型通过对执行训练任务进行深度学习获得； (3)基于获取的避障抓取模型，输入需要执行的任务，实现机械臂避障抓取。 2.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，获取避障抓取模型包括：获取第一阶段任务训练模型，所述第一阶段任务训练模型由对执行第一阶段训练任务进行深度学习获得，其中，执行第一阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，第一阶段任务训练任务完成；获取第二阶段任务训练模型，所述第二阶段任务训练模型由对执行第二阶段训练任务进行深度学习获得，所述第二阶段训练任务由第一阶段任务训练模型执行，其中，执行第二阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，第二阶段任务训练任务完成；获取第三阶段任务训练模型，所述第三阶段任务训练模型由对执行第三阶段训练任务进行深度学习获得，所述第三阶段训练任务由第二阶段任务训练模型执行，其中，执行第三阶段任务时，当训练周期内获得的奖励达到阈值，且各训练周期内所获得的奖励差值位于阈值内时，训练完成。 3.根据权利要求2所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述第一阶段训练任务为设有第一阶段障碍物的目标物体拾取任务；且所述第一阶段障碍物位置固定；所述第二阶段训练任务为设有第二阶段障碍物的目标物体拾取任务，所述第二阶段障碍物位置固定且数量多于所述第一阶段障碍物；所述第三阶段训练任务为设有第三阶段障碍物的目标物体拾取任务，所述第三阶段障碍物其位置随机生成，且障碍物数量等同于第二阶段障碍物数量。 4.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，执行训练任务包括：状态获取，所述状态获取用于识别机械臂与目标物体和障碍物相对位置，包括获取机械臂与障碍物之间的最小距离；运动控制，所述运动控制用于控制机械臂运动，包括将机械臂运动转换为在笛卡尔坐标系中的位置控制；奖励获取，其中，所述奖励获取为成功完成目标动作的记录。 5.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述状态获取包括：将机械臂上的若干连接臂、末端执行器和障碍物视为线段，每条线段分为若干点、这些机械臂上的点和障碍物上的点之间的距离表示机械臂与障碍物之间的距离，将机械臂与障碍物之间的最小距离dmin作为状态的第一部分，机械臂夹爪的两个手指相对于末端执行器坐标系下的y轴方向上的位置yf作为状态的第二部分，目标物体三维空间下的位置po作为状态的第三部分，末端执行器三维空间下的位置pe作为状态的第四部分： S1＝{dmin， yf， po， pe}权　利　要　求　书 1/2 页 2 CN 115042185 A 2每个状态的范围如下： dmin1， dmin2∈[0， 1.3] yleft∈[0， 0.04]， yright∈[‑0.04， 0] Xo∈[‑2， 2]， yo∈[‑2， 2]， zo∈[‑2， 2] xe∈[‑1.35， 0.35]， ye∈[‑0.98， 0.72]， ze∈[0.52， 1.82] 其中， dmin1和dmin2分别表示机械臂与两个障碍物之间的最小距离； yleft和yright分别表示机械臂夹爪的左右手指相对于末端执行器坐标系下的y轴方向上的位置； xo， yo， zo分别表示目标物体在末端执行器坐标系下的x、 y和z轴上的位置； xe， ye， ze分别表示末端执行器在世界坐标系下的x、 y和z轴上的位置。 6.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述运动控制包括：采用操作空间控制(OSC)将机械臂运动转换为在笛卡尔坐标系中的位置控制，机械臂的动作空间a为： a＝(Δx， Δy， Δ z， Δg)， Δx， Δy， Δ z， Δg∈[ ‑1， 1] 其中， Δx、 Δy和Δz表示机械臂的末端执行器在笛卡尔坐标系中x、 y和z轴上的偏移量， Δg为抓手开合状态，抓手即为机械臂末端执行器上的夹具， Δg＜0，则夹具关闭； Δg＝ 0，则夹具保持不变， Δg＞0，则夹具打开。 7.根据权利要求4所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述奖励获取包括到达、抓取、提升和悬停四个阶段的奖励： rreach＝α *(1‑tanh( λ*d1)) rgrasp＝β rlift＝rgrasp+(γ‑β )*(1‑tanh[ η*(zset‑zobject)]) robstacle＝k rtime＝ τ 其中rreach， rgrasp， rlift， rhover分别代表到达、抓握、举起和悬停的奖励； robstacle表示机械臂和障碍物发生碰撞的惩罚； rtime表示未完成任务前受到的时间惩罚； d1表示从夹具到目标对象的笛卡尔距离； zset、 zobject分别表示设定点的高度和要到达的物体的高度； d2表示目标物体到目标点的笛卡尔距离， rhover1， rhover2分别表示两种情况的悬停的奖励； α， β， γ， μ， λ， η 分别表示到达、抓握、举起、悬停几个奖励公式中设定的系数； κ 表示碰撞惩罚设定的系数； τ 表示时间惩罚设定的系数。 8.根据权利要求3所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述第一阶段障碍物有一个；所述第二阶段障碍物有两个，所述第三阶段障碍物有两个。 9.根据权利要求1所述的基于持续强化学习的机械臂避障抓取方法，其特征在于，所述深度学习其算法采用Soft Actor Critic算法执行。权　利　要　求　书 2/2 页 3 CN 115042185 A 3

专利 一种基于持续强化学习的机械臂避障抓取方法

专利一种基于持续强化学习的机械臂避障抓取方法