专利一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211038250.5 (22)申请日 2022.08.29 (71)申请人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人詹腾达　高鼎峰　余朝宝　周宇航　许铭轩　郭毓　 (74)专利代理机构南京理工大学专利中心 32203 专利代理师王安 (51)Int.Cl. B25J 9/16(2006.01) (54)发明名称一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法 (57)摘要本发明公开了一种强化学习的空间机械臂轴孔装配变阻抗控制方法，首先分别构建空间机械臂模型以及机械臂关节角状态和末端位姿的转换模型，之后利用双目相机采集装配孔的位置信息，构建基于强化学习的阻抗控制器，并利用神经网络对阻抗控制器进行训练，之后输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。本发明的方案基于强化学习对空间机械臂轴孔装配进行变阻抗控制，其控制可以对动态力进行跟踪，动态误差较传统的定阻抗控制更小，响应速度也更快，可以有效削弱环境中不定因素的影响，与传统的定阻抗控制有着更优的跟踪精度。权利要求书2页说明书8页附图6页 CN 115256401 A 2022.11.01 CN 115256401 A 1.一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，包括以下步骤：步骤1、基于DH参数法构建空间机械臂模型；步骤2、基于正逆运动学算法构建空间机械臂关节角状态和末端位姿的转换模型；步骤3、初始化双目相机的内外参数，并利用双目相机采集图像，获取装配孔的位置信息；步骤4、构建基于强化学习的阻抗控制器，并根据预期目标设置训练过程中的阻抗参数动作表、奖励函数以及中止条件；步骤5、基于神经网络训练阻抗控制器；步骤6、输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。 2.根据权利要求1所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述步骤4中的构建基于强化学习的阻抗控制器，具体为：步骤4‑1、构建阻抗控制器：其中， x， xd分别表示空间机械臂末端的实际运动轨迹和期望运动轨迹， Fe表示机械臂末端与外部环境的作用力， Md,Kd,Cd分别对应阻抗控制器的期望惯性矩阵，期望刚度矩阵以及期望阻尼矩阵；分别表示空间机械臂末端实际加速度、期望加速度、实际速度和期望速度，阻抗控制器中选取 Kd,Cd作为控制量；步骤4‑2、设置奖励函数：其中， T表示单次训练时长， Ef为期望力与当前时刻力的误差值；步骤4‑3、设置强化学习的阻抗参数动作表： δCd∈[±2,±1,0], δ Kd∈[±5,±4,±3,±2,±1,0] δ 为设置的delta修正量。 3.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述训练中止条件设置为：训练次数达到设定的阈值。 4.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述步骤5中的基于神经网络训练阻抗控制器，具体为：首先设置训练的总次数，在单次训练中收集空间机械臂的经验表，并将其放置到经验池，其中经验池内部的较高奖励的经验也会间隔与经验池中随机抽取的经验一同输入到策略网络中，对策略网络进行更新，通过策略网络中的预测值与目标网络之间的残差更新策略网络，设置更新时间，一旦超过该时间后，将目标网络利用策略网络进行替换，实现目标网络更新，最后通过目标网络更具环境中的反馈输出评分最高的动作，依次循环，直至最终权　利　要　求　书 1/2 页 2 CN 115256401 A 2设置的训练总次数大于设定值，结束训练。 5.根据权利要求4所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述策略网络对基于强化学习的阻抗控制器中的当前时刻的Q值进行预测，基于目标网络对基于强化学习的阻抗控制器中的下一时刻的Q值进行预测，并将两个时刻的差值的均方误差作为损失函数： L＝Mse(Q(st,a)‑r‑γQ(st+1,a) 其中， Mse表示均方误差， Q(st,a)表示t时刻的Q值， γ∈(0,1)表示学习过程中的衰减率， α ∈(0,1)表示模型的学习率。 6.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述策略网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出当前时刻各动作的Q 值。 7.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述目标网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出下一时刻各动作的Q 值。 8.一种基于强化学习的空间机械臂轴孔装配变阻抗控制系统，其特征在于，包括以下模块：空间机械臂模型构建模块：用于基于DH参数法构建空间机械臂模型；末端位姿的转换模型构建模块：用于基于正逆运动学算法构建空间机械臂关节角状态和末端位姿的转换模型；装配孔的位置信息获取模块：用于初始化双目相机的内外参数，并利用双目相机采集图像，获取装配孔的位置信息；阻抗控制器构建模块：用于构建基于强化学习的阻抗控制器，并根据预期目标设置训练过程中的阻抗参数动作表、奖励函数以及中止条件；训练模块：基于神经网络训练阻抗控制器；空间机械臂轴孔装配变阻抗控制模块：用于输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求 1‑7中任一项所述方法的步骤。 10.一种计算机可存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1 ‑7项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 115256401 A 3

专利 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法

专利一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法