专利基于深度强化学习的变质量水下航行器避障方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110240036.7 (22)申请日 2021.03.04 (65)同一申请的已公布的文献号申请公布号 CN 113010963 A (43)申请公布日 2021.06.22 (73)专利权人山东大学地址 266237 山东省青岛市即墨滨海路72 号 (72)发明人李沂滨　李沐阳　缪旭弘　魏征　尤岳　周广礼　贾磊　庄英豪　宋艳　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 代理人闫伟姣(51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 110597058 A,2019.12.20 KR 20190 018977 A,2019.02.26 CN 112241176 A,2021.01.19 Runsheng Yu、 Zhenyu Shi.De ep Reinforcement Learn ing Based Optimal Trajectory Track ing Control of Auto nomous Underwater Vehicle. 《IE EE》 .2017, 许雅筑, 武辉.强化学习方法在自主水下机器人控制任务中的应用. 《中国科学》 .2020, 审查员李卿 (54)发明名称基于深度强化学习的变质量水下航行器避障方法及系统 (57)摘要本发明公开一种基于深度强化学习的变质量水下航行器避障方法及系统，包括：根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型；将历史避障任务完整轨迹作为专家数据存入经验回放池，根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作，根据当前执行动作得到新运行状态和当前执行动作的奖励值，并存入经验回放池；根据经验回放池对避障仿真模型进行训练，根据当前训练的执行动作奖励值和历史训练的奖励平均值更新高斯噪声；以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。对基于深度强化学习的DDPG网络模型进行改进，解决水下航行器的避障问题。权利要求书2页说明书9页附图6页 CN 113010963 B 2022.04.29 CN 113010963 B 1.一种基于深度强化学习的变质量水下航行器避障方法，其特征在于，包括：根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避障仿真模型；根据所述变质量水下航行器的运动状态构建状态空间，包括变质量水下航行器距水面的垂直距离、距水面中心的水平距离、距水面中心的正弦角和余弦角、距障碍物的距离，变质量水下航行器的姿态角、舵角、艉部推进器的推进力；根据变质量水下航行器的执行机构动作构建动作空间，包括控制变质量水下航行器的艉部推进器推力、艉部水平舵舵角、艉部垂直舵舵角以及重量大小；基于深度强化学习网络的避障仿真模型包括当前演员网络、当前评论家网络、目标演员网络、目标评论家网络以及经验回放池；根据经验回放池中的经验数据通过当前演员网络和当前评论家网络对网络模型进行训练，以更新目标演员网络、目标评论家网络；还包括奖励函数，奖励函数包括变质量水下航行器上浮时的上浮奖励、变质量水下航行器到达指定区域时的位置奖励、时间惩罚项、变质量水下航行器触碰到地图边界或障碍时的惩罚项以及变质量水下航行器在指定步数内完成避障任务时的奖励项；对于航行器的上浮，定义上浮奖励为t时刻时航行器深度与 t+1时刻时航行器深度的差值；针对航行器在水平面上到达指定区域的任务，定义位置奖励为t时刻航行器与水平面中心的距离函数；设置时间惩罚项，当时间步大于500步时，将返回任务结束标志并结束任务；当航行器触碰到地图边界或者障碍时，将返回任务结束标志并结束任务，给予惩罚项；若航行器在指定步数内完成任务，将返回任务结束标志并结束任务，给予奖励项；将预先获取的历史避障任务完整轨迹作为专家数据存入经验回放池，根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作，所述当前执行动作为基于当前运动状态，利用当前演员网络及当前高斯噪声计算得到当前应采取的执行动作，根据当前执行动作得到新运动状态和当前执行动作的奖励值，并存入经验回放池；根据经验回放池对基于深度强化学习网络的避障仿真模型进行训练，根据当前训练的执行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声；以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。 2.如权利要求1所述的一种基于深度强化学习的变质量水下航行器避障方法，其特征在于，根据评论家网络的均方差损失函数通过梯度反向传播更新当前评论家网络的参数，根据演员网络的均方差损失函数通过梯度反向传播更新当前评论家网络的参数，根据更新后的当前评论家网络和当前评论家网络的参数通过软更新方法更新目标演员网络和目标评论家网络。 3.如权利要求1所述的一种基于深度强化学习的变质量水下航行器避障方法，其特征在于，根据当前训练的执行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声包括：若当前训练的执行动作奖励值大于历史训练的奖励平均值，则降低高斯噪声，否则增大高斯噪声；设定高斯噪声上限和高斯噪声下限，采用clip函数确定高斯噪声值，即σm+1＝ clip( σ'm+1,0.5σ0,2σ0)，其中σm+1为第m+1轮训练的高斯噪声， σ0为初始噪声， σ ′m+1为中间变量。 4.一种基于深度强化学习的变质量水下航行器避障系统，其特征在于，包括：模型构建模块，被配置为根据变质量水下航行器的运动状态和执行机构动作构建基于权　利　要　求　书 1/2 页 2 CN 113010963 B 2深度强化学习网络的避障仿真模型；根据所述变质量水下航行器的运动状态构建状态空间，包括变质量水下航行器距水面的垂直距离、距水面中心的水平距离、距水面中心的正弦角和余弦角、距障碍物的距离，变质量水下航行器的姿态角、舵角、艉部推进器的推进力；根据变质量水下航行器的执行机构动作构建动作空间，包括控制变质量水下航行器的艉部推进器推力、艉部水平舵舵角、艉部垂直舵舵角以及重量大小；基于深度强化学习网络的避障仿真模型包括当前演员网络、当前评论家网络、目标演员网络、目标评论家网络以及经验回放池；根据经验回放池中的经验数据通过当前演员网络和当前评论家网络对网络模型进行训练，以更新目标演员网络、目标评论家网络；还包括奖励函数，奖励函数包括变质量水下航行器上浮时的上浮奖励、变质量水下航行器到达指定区域时的位置奖励、时间惩罚项、变质量水下航行器触碰到地图边界或障碍时的惩罚项以及变质量水下航行器在指定步数内完成避障任务时的奖励项；对于航行器的上浮，定义上浮奖励为t时刻时航行器深度与 t+1时刻时航行器深度的差值；针对航行器在水平面上到达指定区域的任务，定义位置奖励为t时刻航行器与水平面中心的距离函数；设置时间惩罚项，当时间步大于500步时，将返回任务结束标志并结束任务；当航行器触碰到地图边界或者障碍时，将返回任务结束标志并结束任务，给予惩罚项；若航行器在指定步数内完成任务，将返回任务结束标志并结束任务，给予奖励项；经验获取模块，被配置为将预先获取的历史避障任务完整轨迹作为专家数据存入经验回放池，根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作，所述当前执行动作为基于当前运动状态，利用当前演员网络及当前高斯噪声计算得到当前应采取的执行动作，根据当前执行动作得到新运动状态和当前执行动作的奖励值，并存入经验回放池；训练模块，被配置为根据经验回放池对基于深度强化学习网络的避障仿真模型进行训练，根据当前训练的执行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声；避障规划模块，被配置为以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器避障任务行驶路径。 5.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求 1‑3任一项所述的方法。 6.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1 ‑3任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 113010963 B 3

专利 基于深度强化学习的变质量水下航行器避障方法及系统

专利基于深度强化学习的变质量水下航行器避障方法及系统