专利机械臂末端控制轨迹智能规划算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211148470.3 (22)申请日 2022.09.21 (71)申请人上海摩马智能科技有限公司地址 200234 上海市浦东新区临港新片区环湖西二路8 88号C楼 (72)发明人高芮　 (74)专利代理机构上海新申信知识产权代理有限公司 31480 专利代理师王英鸿 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称机械臂末端控制轨迹智能规划算法 (57)摘要本发明公开了一种机械臂末端控制轨迹智能规划算法，涉及控制轨迹规划技术领域，包括如下步骤： S1：在模拟环境中建立机械臂以及环境物理模型，其中环境物理模型包含环境中所有物体； S2：建立机械臂运动规划器模型，其中包括运动轨迹的速度规划以及逆解算法； S3：随机初始化机械臂轨迹的起点和终点以及环境物理参数，此机械臂末端控制轨迹智能规划算法，区别于现有技术，机械臂可以自动规划平滑轨迹，算法可以自适应环境变化，可以免于人工部署，节约成本，算法可以进行碰撞检测，决策避障，算法复杂度分层模块化，易于搭建，算法可在模拟端实现训练，直接应用于机械臂，减少机械损耗。权利要求书2页说明书4页附图1页 CN 115319759 A 2022.11.11 CN 115319759 A 1.机械臂末端控制轨迹智能规划算法，其特征在于，包括如下步骤： S1：在模拟环境中建立机械臂以及环境物理模型，其中环境物理模型包含环境中所有物体； S2：建立机械臂运动规划器模型，其中包括运动轨迹的速度规划以及逆解算法； S3：随机初始化机械臂轨迹的起点和终点以及环境物理参数； S4：采用无监督强化学习算法，观测环境数据并根据回报预测选取机械臂下一时刻末端点的位姿和速度信息； S5：通过速度规划器把机械臂末端运动学数据转换成关节端运动学数据，并控制机械臂运动； S6：观测新的环境数据，利用回报函数更新回报数据，继续输出新的动作； S7：迭代步骤S4、 S5和S6直到累计回报上升后保持平稳，结束训练并保存策略； S8：将模拟环境迁移到现实环境中，将状态映射到隐含空间，并应用在模拟环境训练好的模型； S9：设置机械臂轨迹的起点和终点； S10：观测环境数据，利用训练得出的策略选择机械臂下一步的末端轨迹； S11：通过速度规划器，把机械臂末端运动学数据转换成关节端运动学数据，并通过机械臂控制器控制机械臂运动； S11：迭代S9、 S10步骤直到机械臂末端到达目标点允许误差范围。 2.根据权利要求1所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述步骤S1 和步骤S2中建立模型，采用强化学习中model based的方法，模型M 是环境， MDP<S,A,P,R>的参数化η近似，状态S和行为空间A是已知的，实际上就是对转移函数P和奖励R的参数化近似，其公式表示如下： M＝<Pη,Rη>，其中： St+1～Pη(St+1|St,At) Rt+1＝Rη(Rt+1|St,At) 步骤S4中通过无监督学习的方式训练模型，无监督式学习的训练集表示如下： X →y: S1,A1→R2,S2 S2,A2→R3,S3 ST‑1,AT‑1→RT,,ST 上述采用深度神经网络模型，并利用损失函数来优化参数 η来最小化经验损失。 3.根据权利要求1所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述步骤S8 具体采用域自适应方法。 4.根据权利要求3所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述域自适应方法的实际步骤包括：建立映射集、制定度量准则以及确定误差界。 5.根据权利要求1所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述步骤S3 中初始化环境采用域随机化方法。 6.根据权利要求1所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述步骤S4 中无监督强化学习算法采用PPO算法作为基准算法，其中，使用重要性采样获得采样，使用权　利　要　求　书 1/2 页 2 CN 115319759 A 2其他分布q获得数据，来估计基于分布p的函数期望：其中： p和q分别是测试数据分布和训练样本分布。 7.根据权利要求1所述的机械臂末端控制轨迹智能规划算法，其特征在于，还包括如下步骤：基于离线policyπθ'采样的数据，训练在线policyπθ，在此过程中，由于πθ'是固定的，可以重复使用 πθ'的数据训练πθ多次。 8.根据权利要求7所述的机械臂末端控制轨迹智能规划算法，其特征在于，所述采用 clip的方法对 θ'和 θ进行采样约束，约束公式表示如下：权　利　要　求　书 2/2 页 3 CN 115319759 A 3

专利 机械臂末端控制轨迹智能规划算法

专利机械臂末端控制轨迹智能规划算法