说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211148470.3 (22)申请日 2022.09.21 (71)申请人 上海摩马智能科技有限公司 地址 200234 上海市浦东 新区临港新片区 环湖西二路8 88号C楼 (72)发明人 高芮  (74)专利代理 机构 上海新申信知识产权代理有 限公司 31480 专利代理师 王英鸿 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称 机械臂末端 控制轨迹智能规划算法 (57)摘要 本发明公开了一种机械臂末端控制轨迹智 能规划算法, 涉及控制轨迹规划技术领域, 包括 如下步骤: S1: 在模拟环境中建立机械臂以及环 境物理模型, 其中环境物理模型包含环境中所有 物体; S2: 建立机械臂运动规划器模型, 其中包括 运动轨迹的速度规划以及逆解算法; S3: 随机初 始化机械臂轨迹的起点和终点 以及环境物理参 数, 此机械臂末端控制轨迹智 能规划算法, 区别 于现有技术, 机械臂可以自动规划平滑轨迹, 算 法可以自适应环境变化, 可 以免于人工部署, 节 约成本, 算法可以进行碰撞检测, 决策避障, 算法 复杂度分层模块化, 易于搭建, 算法可在模拟端 实现训练, 直接 应用于机械臂, 减少机 械损耗。 权利要求书2页 说明书4页 附图1页 CN 115319759 A 2022.11.11 CN 115319759 A 1.机械臂末端控制轨 迹智能规划算法, 其特 征在于, 包括如下步骤: S1: 在模拟环境中建立机械臂以及环境物理模型, 其中环境物理模型包含环境中所有 物体; S2: 建立机 械臂运动规划器模型, 其中包括 运动轨迹的速度规划以及逆解 算法; S3: 随机初始化机 械臂轨迹的起点和终点以及环境物理参数; S4: 采用无监督强化学习算法, 观测环境数据并根据回报预测选取机械臂下一时刻末 端点的位姿和速度信息; S5: 通过速度规划器把机械臂末端运动学数据转换成关节端运动学数据, 并控制机械 臂运动; S6: 观测新的环境数据, 利用回报函数 更新回报数据, 继续输出新的动作; S7: 迭代步骤S4、 S5和S6直到累计回报上升后保持平稳, 结束训练并保存策略; S8: 将模拟环境迁移到现实环境中, 将状态映射到隐含空间, 并应用在模拟环境训练好 的模型; S9: 设置机械臂轨迹的起点和终点; S10: 观测环境数据, 利用训练得 出的策略选择机 械臂下一 步的末端轨 迹; S11: 通过速度规划器, 把机械臂末端运动学数据转换成关节端运动学数据, 并通过机 械臂控制器控制机 械臂运动; S11: 迭代S9、 S10步骤直到 机械臂末端到 达目标点允许误差范围。 2.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S1 和步骤S2中建立模型, 采用强化学习中model  based的方法, 模型M 是环境, MDP<S,A,P,R>的 参数化η近似, 状态S和行为空间A是已知的, 实际上就是对转移函数P和奖励R的参数化近 似, 其公式表示如下: M=<Pη,Rη>, 其中: St+1~Pη(St+1|St,At) Rt+1=Rη(Rt+1|St,At) 步骤S4中通过 无监督学习的方式训练模型, 无监 督式学习的训练集表示如下: X →y: S1,A1→R2,S2 S2,A2→R3,S3 ST‑1,AT‑1→RT,,ST 上述采用深度神经网络模型, 并利用损失函数来优化 参数 η来最小化经验损失。 3.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S8 具体采用域自适应方法。 4.根据权利要求3所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述域自适 应方法的实际步骤 包括: 建立映射 集、 制定度量 准则以及确定误差界。 5.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S3 中初始化环境采用域随机化方法。 6.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S4 中无监督强化学习算法采用PPO算法作为基准算法, 其中, 使用重要性采样获得采样, 使用权 利 要 求 书 1/2 页 2 CN 115319759 A 2其他分布q获得 数据, 来估计 基于分布p的函数期望: 其中: p和q分别是测试 数据分布和训练样本分布。 7.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 还包括如下 步骤: 基于离线policyπθ'采样的数据, 训练在线policyπθ, 在此过程中, 由于πθ'是固定的, 可 以重复使用 πθ'的数据训练πθ多次。 8.根据权利要求7所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述采用 clip的方法对 θ'和 θ进行采样约束, 约束公式表示如下: 权 利 要 求 书 2/2 页 3 CN 115319759 A 3

.PDF文档 专利 机械臂末端控制轨迹智能规划算法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 机械臂末端控制轨迹智能规划算法 第 1 页 专利 机械臂末端控制轨迹智能规划算法 第 2 页 专利 机械臂末端控制轨迹智能规划算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:13:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。