说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210791815.0 (22)申请日 2022.07.07 (71)申请人 上海摩马智能科技有限公司 地址 201306 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区环湖西二 路888号C楼 (72)发明人 高芮  (74)专利代理 机构 上海骁象知识产权代理有限 公司 31315 专利代理师 赵俊寅 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 一种机械臂轨迹智能规划算法 (57)摘要 一种机械臂轨迹智能规划算法, 包括以下步 骤: 给定机械臂初始点, 终止点和约束条件。 对生 产环境进行建模, 然后通过强化学习算法, 训练 agent进行决策, 输 出每个关节的速度规划路径, 控制机械臂达到目标点。 本发明克服了现有技术 的不足, 通过好奇心驱动学习的方法提高了算法 的探索能力, 从而提高鲁棒性, 避免陷入局部最 优; 同时逐步增加任务难度, 使算法可 以适应复 杂场景的避障路径规划; 在保证了机械臂运动规 划的平滑性、 转动过程平稳的前提下, 实现了自 动部署。 权利要求书1页 说明书4页 附图3页 CN 115091458 A 2022.09.23 CN 115091458 A 1.一种机 械臂轨迹智能规划算法, 其特 征在于, 包括以下步骤: 步骤S1: 对生产环境进行建模, 确定目标位置和障碍物位置; 步骤S2: 基于无监督的强化学习算法做机械臂的关节空间路径规划, 保证机械臂的关 节空间轨 迹平滑; 步骤S3: 根据规划的动力学参数, 得到空间下一时刻机 械臂轨迹路径点; 步骤S4: 通过规划器控制机 械臂运动, 得到新的环境状态以及动作奖励; 步骤S5: 利用新的环境状态和动作奖励进行下一步的运动决策, 从而得到马尔科夫决 策过程; 步骤S6: 控制机 械臂到达目标点后停止运动。 2.根据权利要求1所述的一种机械臂轨迹智能规划算法, 其特征在于: 所述步骤S2中强 化学习算法采用PPO算法作为基准算法, 其中, 使用重要性采样获得采样, 使用其他分布q获 得数据, 来估计 基于分布p的函数期望: 其中: p和q分别是测试 数据分布和训练样本分布。 3.根据权利 要求2所述的一种机械臂轨迹智能规划算法, 其特征在于: 基于离线policy πθ'采样的数据, 训练在线policyπθ, 在此过程中, 由于πθ'是固定的, 因此可以重复使用 πθ'的 数据训练πθ多次, 增加数据利用率, 提高训练稳定性。 4.根据权利要求3所述的一种机械臂轨迹智能规划算法, 其特征在于: 采用clip的方法 对 θ'和 θ进行采样约束: 5.根据权利要求4所述的一种机械臂轨迹智能规划算法, 其特征在于: 在奖励机制中加 入好奇心奖励机制, 提取环境中有用的信息, 并对这一部 分特征的探索 进行奖励, 使 奖励变 得稠密, 从而提高训练效果。 6.根据权利要求1所述的一种机械臂轨迹智能规划算法, 其特征在于: 所述步骤S6在机 械臂到达目标的任务完成后, 再进一 步训练智能体完成更难的任务, 逐渐增 加环境复杂度。权 利 要 求 书 1/1 页 2 CN 115091458 A 2一种机械臂轨 迹智能规划算法 技术领域 [0001]本发明涉及机械臂轨迹规划的技术领域, 具体涉及一种机械臂轨迹智能规划算 法。 背景技术 [0002]在机械臂的工业生产 中, 传统机械臂算法需要工程师花费时间调试校准, 机械臂 在运动中做到精准、 平稳的轨迹规划至 关重要。 然而, 生产模 具的每一次轻微调整和生产场 景的变化, 都需要工程师重新调试, 这样就需要花费大量的人力和时间成本。 随着生产现场 场景的复杂度增加或者生产模型 的种类增多, 调 试轨迹的时间还会大幅增加。 对企业的人 力成本和时间成本有着很大的影响。 [0003]因此, 设计一个自动适应不 同生产模型和根据环境自动调整规划路径的算法, 在 减少企业 生产成本上显得 尤为重要。 发明内容 [0004]针对现有技术的不足, 本发明提供了一种机械臂轨迹智能规划算法, 克服了现有 技术的不足, 设计合理, 通过好奇心驱动学习的方法提高了算法的探索能力, 从而提高鲁棒 性, 避免陷入局部最优; 同时通过课程学习逐步增加任务难度, 使算法可以适应复杂场景的 避障路径规划; 在保证了机械臂运动规划的平滑 性、 转动过程平稳的前提下, 实现了自动部 署。 [0005]为实现以上目的, 本发明通过以下技 术方案予以实现: [0006]一种机械臂轨迹智能规划算法, 包括以下步骤: [0007]步骤S1: 对生产环境进行建模, 确定目标位置和障碍物位置; [0008]步骤S2: 基于无监督的强化学习算法做机械臂的关节空间路径规划, 保证机械臂 的关节空间轨 迹平滑; [0009]步骤S3: 根据规划的动力学参数, 得到空间下一时刻机 械臂轨迹路径点; [0010]步骤S4: 通过规划器控制机 械臂运动, 得到新的环境状态以及动作奖励; [0011]步骤S5: 利用新的环境状态和动作奖励进行下一步的运动决策, 从而得到马尔科 夫决策过程; [0012]步骤S6: 控制机 械臂到达目标点后停止运动。 [0013]所述步骤S2中强化学习算法采用PPO算法作为基准算法, 其中, 使用重要性采样获 得采样, 使用其 他分布q获得 数据, 来估计 基于分布p的函数期望: [0014] 说 明 书 1/4 页 3 CN 115091458 A 3

.PDF文档 专利 一种机械臂轨迹智能规划算法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种机械臂轨迹智能规划算法 第 1 页 专利 一种机械臂轨迹智能规划算法 第 2 页 专利 一种机械臂轨迹智能规划算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:08:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。