(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211148470.3
(22)申请日 2022.09.21
(71)申请人 上海摩马智能科技有限公司
地址 200234 上海市浦东 新区临港新片区
环湖西二路8 88号C楼
(72)发明人 高芮
(74)专利代理 机构 上海新申信知识产权代理有
限公司 31480
专利代理师 王英鸿
(51)Int.Cl.
B25J 9/16(2006.01)
(54)发明名称
机械臂末端 控制轨迹智能规划算法
(57)摘要
本发明公开了一种机械臂末端控制轨迹智
能规划算法, 涉及控制轨迹规划技术领域, 包括
如下步骤: S1: 在模拟环境中建立机械臂以及环
境物理模型, 其中环境物理模型包含环境中所有
物体; S2: 建立机械臂运动规划器模型, 其中包括
运动轨迹的速度规划以及逆解算法; S3: 随机初
始化机械臂轨迹的起点和终点 以及环境物理参
数, 此机械臂末端控制轨迹智 能规划算法, 区别
于现有技术, 机械臂可以自动规划平滑轨迹, 算
法可以自适应环境变化, 可 以免于人工部署, 节
约成本, 算法可以进行碰撞检测, 决策避障, 算法
复杂度分层模块化, 易于搭建, 算法可在模拟端
实现训练, 直接 应用于机械臂, 减少机 械损耗。
权利要求书2页 说明书4页 附图1页
CN 115319759 A
2022.11.11
CN 115319759 A
1.机械臂末端控制轨 迹智能规划算法, 其特 征在于, 包括如下步骤:
S1: 在模拟环境中建立机械臂以及环境物理模型, 其中环境物理模型包含环境中所有
物体;
S2: 建立机 械臂运动规划器模型, 其中包括 运动轨迹的速度规划以及逆解 算法;
S3: 随机初始化机 械臂轨迹的起点和终点以及环境物理参数;
S4: 采用无监督强化学习算法, 观测环境数据并根据回报预测选取机械臂下一时刻末
端点的位姿和速度信息;
S5: 通过速度规划器把机械臂末端运动学数据转换成关节端运动学数据, 并控制机械
臂运动;
S6: 观测新的环境数据, 利用回报函数 更新回报数据, 继续输出新的动作;
S7: 迭代步骤S4、 S5和S6直到累计回报上升后保持平稳, 结束训练并保存策略;
S8: 将模拟环境迁移到现实环境中, 将状态映射到隐含空间, 并应用在模拟环境训练好
的模型;
S9: 设置机械臂轨迹的起点和终点;
S10: 观测环境数据, 利用训练得 出的策略选择机 械臂下一 步的末端轨 迹;
S11: 通过速度规划器, 把机械臂末端运动学数据转换成关节端运动学数据, 并通过机
械臂控制器控制机 械臂运动;
S11: 迭代S9、 S10步骤直到 机械臂末端到 达目标点允许误差范围。
2.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S1
和步骤S2中建立模型, 采用强化学习中model based的方法, 模型M 是环境, MDP<S,A,P,R>的
参数化η近似, 状态S和行为空间A是已知的, 实际上就是对转移函数P和奖励R的参数化近
似, 其公式表示如下:
M=<Pη,Rη>, 其中:
St+1~Pη(St+1|St,At)
Rt+1=Rη(Rt+1|St,At)
步骤S4中通过 无监督学习的方式训练模型, 无监 督式学习的训练集表示如下: X →y:
S1,A1→R2,S2
S2,A2→R3,S3
ST‑1,AT‑1→RT,,ST
上述采用深度神经网络模型, 并利用损失函数来优化 参数 η来最小化经验损失。
3.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S8
具体采用域自适应方法。
4.根据权利要求3所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述域自适
应方法的实际步骤 包括: 建立映射 集、 制定度量 准则以及确定误差界。
5.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S3
中初始化环境采用域随机化方法。
6.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述步骤S4
中无监督强化学习算法采用PPO算法作为基准算法, 其中, 使用重要性采样获得采样, 使用权 利 要 求 书 1/2 页
2
CN 115319759 A
2其他分布q获得 数据, 来估计 基于分布p的函数期望:
其中: p和q分别是测试 数据分布和训练样本分布。
7.根据权利要求1所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 还包括如下
步骤:
基于离线policyπθ'采样的数据, 训练在线policyπθ, 在此过程中, 由于πθ'是固定的, 可
以重复使用 πθ'的数据训练πθ多次。
8.根据权利要求7所述的机械臂末端控制轨迹智能规划算法, 其特征在于, 所述采用
clip的方法对 θ'和 θ进行采样约束, 约束公式表示如下:
权 利 要 求 书 2/2 页
3
CN 115319759 A
3
专利 机械臂末端控制轨迹智能规划算法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:13:38上传分享