(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211038250.5
(22)申请日 2022.08.29
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 詹腾达 高鼎峰 余朝宝 周宇航
许铭轩 郭毓
(74)专利代理 机构 南京理工大 学专利中心
32203
专利代理师 王安
(51)Int.Cl.
B25J 9/16(2006.01)
(54)发明名称
一种基于强化学习的空间机械臂轴孔装配
变阻抗控制方法
(57)摘要
本发明公开了一种强化学习的空间机械臂
轴孔装配变阻抗控制方法, 首先分别构建空间机
械臂模型以及机械臂关节角状态和末端位姿的
转换模型, 之后利用双目相机采集装配孔的位置
信息, 构建基于强化学习的阻抗控制器, 并利用
神经网络对阻抗控制器进行训练, 之后输入机械
臂末端的实时信息, 更新阻抗控制器的阻抗参
数, 输出机械臂末端的位置修正量, 完成空间机
械臂轴孔装配变阻抗控制。 本发 明的方案基于强
化学习对空间机械臂轴孔装配进行变阻抗控制,
其控制可以对动态力进行跟踪, 动态 误差较传统
的定阻抗控制更小, 响应速度也更快, 可 以有效
削弱环境中不定因素的影 响, 与传统的定阻抗控
制有着更优的跟踪精度。
权利要求书2页 说明书8页 附图6页
CN 115256401 A
2022.11.01
CN 115256401 A
1.一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特征在于, 包括以下
步骤:
步骤1、 基于DH参数法构建空间机 械臂模型;
步骤2、 基于正逆运动学算法构建空间机 械臂关节角状态和末端位姿的转换模型;
步骤3、 初始化双目相机的内外参数, 并利用双目相机采集图像, 获取装配孔的位置信
息;
步骤4、 构建基于强化学习的 阻抗控制器, 并根据 预期目标设置训练过程中的 阻抗参数
动作表、 奖励函数以及中止条件;
步骤5、 基于神经网络训练阻抗控制器;
步骤6、 输入机械臂末端的实时信息, 更新阻抗控制器的阻抗参数, 输出机械臂末端的
位置修正量, 完成空间机 械臂轴孔装配 变阻抗控制。
2.根据权利要求1所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述 步骤4中的构建基于强化学习的阻抗控制器, 具体为:
步骤4‑1、 构建阻抗控制器:
其中, x, xd分别表示 空间机械臂末端的实际运动轨迹和期望运动轨迹, Fe表示机械臂末
端与外部环 境的作用力, Md,Kd,Cd分别对应阻抗控制器的期 望惯性矩阵, 期 望刚度矩阵以及
期望阻尼矩阵;
分别表示空间机械臂末端实际加速度、 期望加速度、 实际速
度和期望 速度, 阻抗控制器中选取 Kd,Cd作为控制量;
步骤4‑2、 设置奖励函数:
其中, T表示单次训练时长, Ef为期望力与当前时刻力的误差值;
步骤4‑3、 设置强化学习的阻抗 参数动作表:
δCd∈[±2,±1,0], δ Kd∈[±5,±4,±3,±2,±1,0]
δ 为设置的delta修 正量。
3.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述训练中止条件设置为:
训练次数达 到设定的阈值。
4.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述 步骤5中的基于神经网络训练阻抗控制器, 具体为:
首先设置训练的总次数, 在单次训练中收集空间机械臂 的经验表, 并将其放置到经验
池, 其中经验池内部的较高奖励的经验也会间隔与经验池中随机抽取的经验一同输入到策
略网络中, 对策略网络进行更新, 通过策略网络中的预测 值与目标网络之间的残差更新策
略网络, 设置更新时间, 一旦超过该时间后, 将目标网络利用策略网络进行替换, 实现目标
网络更新, 最后通过目标网络更具环 境中的反馈输出评 分最高的动作, 依次循环, 直至最 终权 利 要 求 书 1/2 页
2
CN 115256401 A
2设置的训练总次数 大于设定值, 结束训练。
5.根据权利要求4所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述策略网络对基于强化学习的阻抗控制器中的当前时刻的Q值进行预测, 基于目
标网络对基于强化学习的阻抗控制 器中的下一时刻的Q值进行预测, 并将两个时刻的差值
的均方误差作为损失函数:
L=Mse(Q(st,a)‑r‑γQ(st+1,a)
其中, Mse表示均方误差, Q(st,a)表示t时刻的Q值, γ∈(0,1)表示学习过程中的衰减
率, α ∈(0,1)表示模型的学习率。
6.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述策略网络采用全神经网络结构, 将机械臂末端的位置、 速度、 加速度以及力误
差信息作为网络输入, 隐藏层神经元数量设置为400, 激活函数选择ReLU函数, 输出当前时
刻各动作的Q 值。
7.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法, 其特
征在于, 所述目标网络采用全神经网络结构, 将机械臂末端的位置、 速度、 加速度以及力误
差信息作为网络输入, 隐藏层神经元数量设置为400, 激活函数选择ReLU函数, 输出下一时
刻各动作的Q 值。
8.一种基于强化学习的空间机械臂轴孔装配变阻抗控制系统, 其特征在于, 包括以下
模块:
空间机械臂模型构建模块: 用于基于DH参数法构建空间机 械臂模型;
末端位姿的转换模型构建模块: 用于基于正逆运动学算法构建空间机械臂关节角状态
和末端位姿的转换模型;
装配孔的位置信息获取模块: 用于初始化双目相机的内外参数, 并利用 双目相机采集
图像, 获取装配孔的位置信息;
阻抗控制器构建模块: 用于构建基于强化学习的阻抗控制器, 并根据预期 目标设置训
练过程中的阻抗 参数动作表、 奖励函数以及中止条件;
训练模块: 基于神经网络训练阻抗控制器;
空间机械臂轴孔装配变阻抗控制模块: 用于输入机械臂末端的实时信息, 更新阻抗控
制器的阻抗 参数, 输出机 械臂末端的位置修 正量, 完成空间机 械臂轴孔装配 变阻抗控制。
9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计
算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求 1‑7中任一项 所述
方法的步骤。
10.一种计算机可存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被
处理器执行时实现权利要求1 ‑7项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 115256401 A
3
专利 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:06:34上传分享