(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110240036.7
(22)申请日 2021.03.04
(65)同一申请的已公布的文献号
申请公布号 CN 113010963 A
(43)申请公布日 2021.06.22
(73)专利权人 山东大学
地址 266237 山东省青岛市 即墨滨海路72
号
(72)发明人 李沂滨 李沐阳 缪旭弘 魏征
尤岳 周广礼 贾磊 庄英豪
宋艳
(74)专利代理 机构 济南圣达知识产权代理有限
公司 372 21
代理人 闫伟姣(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 110597058 A,2019.12.20
KR 20190 018977 A,2019.02.26
CN 112241176 A,2021.01.19
Runsheng Yu、 Zhenyu Shi.De ep
Reinforcement Learn ing Based Optimal
Trajectory Track ing Control of Auto nomous
Underwater Vehicle. 《IE EE》 .2017,
许雅筑, 武辉.强化学习方法在自主水 下机
器人控制任务中的应用. 《中国科 学》 .2020,
审查员 李卿
(54)发明名称
基于深度强化学习的变质 量水下航行器避
障方法及系统
(57)摘要
本发明公开一种基于深度强化学习的变质
量水下航行器避障方法及系统, 包括: 根据变质
量水下航行器的运动状态和执行机构动作构建
基于深度强化学习网络的避障仿真模 型; 将历史
避障任务完整轨迹作为专家数据存入经验回放
池, 根据变质量水下航行器初始运动状态和高斯
噪声得到当前执行动作, 根据当前执行动作得到
新运行状态和当前执行动作的奖励值, 并存入经
验回放池; 根据经验回放池对避障仿真模型进行
训练, 根据当前训练的执行动作奖励值和历史训
练的奖励平均值更新高斯噪声; 以迭代训练完成
后的基于深度强化学习网络的避障仿真模型得
到变质量水下航行器避障任务行驶路径。 对基于
深度强化学习的DDPG网络模型进行改进, 解决水
下航行器的避障问题。
权利要求书2页 说明书9页 附图6页
CN 113010963 B
2022.04.29
CN 113010963 B
1.一种基于深度强化学习的变质量水 下航行器避障方法, 其特 征在于, 包括:
根据变质量水下航行器的运动状态和执行机构动作构建基于深度强化学习网络的避
障仿真模型; 根据所述变质量水下航行器的运动状态构建状态空间, 包括变质量水下航行
器距水面的垂直距离、 距水面中心的水平距离、 距水面中心的正弦角和余弦角、 距障碍物的
距离, 变质量水下航行器的姿态角、 舵角、 艉部推进器的推进力; 根据变质量水下航行器的
执行机构动作构建动作空间, 包括控制变质量水下航行器的艉部推进器推力、 艉部水平舵
舵角、 艉部垂直舵 舵角以及重量大小;
基于深度强化学习 网络的避 障仿真模型包括当前演员网络、 当前评论家网络、 目标演
员网络、 目标评论家网络以及经验回放池; 根据经验回放池中的经验数据通过当前演员网
络和当前评论家网络对网络模型进 行训练, 以更新目标演员网络、 目标评论家网络; 还包括
奖励函数, 奖励函数包括变质量水下航行器上浮时的上浮奖励、 变质量水下航行器到达指
定区域时的位置奖励、 时间惩罚项、 变质量水下航行器触碰到地图边界或障碍时的惩罚项
以及变质量水下航行器在指定步数内完成避障任务时的奖励项; 对于航行器的上浮, 定义
上浮奖励为t时刻时航行器深度与 t+1时刻时航行器深度的差值; 针对航行器在水平面上到
达指定区域的任务, 定义位置奖励为t时刻航行器与水平面中心的距离函数; 设置时间惩罚
项, 当时间步大于500步时, 将返回任务结束标志并结束任务; 当航行器触碰到地图边界或
者障碍时, 将返回任务结束标志并结束任务, 给予惩罚项; 若航行器在指定步数内完成任
务, 将返回任务结束标志并结束任务, 给予奖励项;
将预先获取的历史避障任务完整轨迹作为专家数据存入经验回放池, 根据变质量水下
航行器初始 运动状态和高斯噪声得到当前执行动作, 所述当前执行动作为基于 当前运动状
态, 利用当前演员网络及当前高斯噪声计算得到当前应采取 的执行动作, 根据当前执行动
作得到新 运动状态和当前 执行动作的奖励值, 并存 入经验回放池;
根据经验回放池对基于深度强化学习网络的避障仿真模型进行训练, 根据当前训练 的
执行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声;
以迭代训练完成后的基于深度强化学习网络的避障仿真模型得到变质量水下航行器
避障任务行驶路径。
2.如权利要求1所述的一种基于深度强化学习的变质量水下航行器避障方法, 其特征
在于, 根据评论家网络的均方差损失函数通过梯度反向传播更新当前评论家网络的参数,
根据演员网络的均方差损失函数通过梯度反向传播更新当前评论家网络的参数, 根据更新
后的当前评论家网络和当前评论家网络的参数通过软更新方法更新目标演员网络和目标
评论家网络 。
3.如权利要求1所述的一种基于深度强化学习的变质量水下航行器避障方法, 其特征
在于, 根据当前训练的执行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声包
括: 若当前训练的执行动作奖励值大于历史训练的奖励平均值, 则降低高斯噪声, 否则增大
高斯噪声; 设定高斯噪声上限和高斯噪声下限, 采用clip函数确定高斯噪声值, 即σm+1=
clip( σ'm+1,0.5σ0,2σ0), 其中σm+1为第m+1轮训练的高斯噪声, σ0为初始噪声, σ ′m+1为中间变
量。
4.一种基于深度强化学习的变质量水 下航行器避障系统, 其特 征在于, 包括:
模型构建模块, 被配置为根据变质量水下航行器的运动状态和执行机构动作构建基于权 利 要 求 书 1/2 页
2
CN 113010963 B
2深度强化学习网络的避障仿真模型; 根据所述变质量水下航行器的运动状态构建状态空
间, 包括变质量水下航行器距水面的垂 直距离、 距水面中心的水平距离、 距水面中心的正弦
角和余弦角、 距障碍物的距离, 变质量水下航行器的姿态角、 舵角、 艉部推进器的推进力; 根
据变质量水下航行器的执行机构动作构建动作空间, 包括控制变质量水下航行器的艉部推
进器推力、 艉部水平舵 舵角、 艉部垂直舵 舵角以及重量大小;
基于深度强化学习 网络的避 障仿真模型包括当前演员网络、 当前评论家网络、 目标演
员网络、 目标评论家网络以及经验回放池; 根据经验回放池中的经验数据通过当前演员网
络和当前评论家网络对网络模型进 行训练, 以更新目标演员网络、 目标评论家网络; 还包括
奖励函数, 奖励函数包括变质量水下航行器上浮时的上浮奖励、 变质量水下航行器到达指
定区域时的位置奖励、 时间惩罚项、 变质量水下航行器触碰到地图边界或障碍时的惩罚项
以及变质量水下航行器在指定步数内完成避障任务时的奖励项; 对于航行器的上浮, 定义
上浮奖励为t时刻时航行器深度与 t+1时刻时航行器深度的差值; 针对航行器在水平面上到
达指定区域的任务, 定义位置奖励为t时刻航行器与水平面中心的距离函数; 设置时间惩罚
项, 当时间步大于500步时, 将返回任务结束标志并结束任务; 当航行器触碰到地图边界或
者障碍时, 将返回任务结束标志并结束任务, 给予惩罚项; 若航行器在指定步数内完成任
务, 将返回任务结束标志并结束任务, 给予奖励项;
经验获取模块, 被配置为将预先获取的历史避障任务完整轨迹作为专家数据存入经验
回放池, 根据变质量水下航行器初始运动状态和高斯噪声得到当前执行动作, 所述当前执
行动作为基于 当前运动状态, 利用当前演员网络及当前高斯噪声计算得到 当前应采取的执
行动作, 根据当前 执行动作得到新 运动状态和当前 执行动作的奖励值, 并存 入经验回放池;
训练模块, 被配置为根据经验回放池对基于深度强化学习网络的避障仿真模型进行训
练, 根据当前训练的执 行动作累积奖励值和历史训练的累积奖励平均值更新高斯噪声;
避障规划模块, 被配置为以迭代训练完成后的基于深度强化学习网络的避障仿真模型
得到变质量水 下航行器避障任务行驶路径。
5.一种电子设备, 其特征在于, 包括存储器和处理器以及存储在存储器上并在处理器
上运行的计算机指 令, 所述计算机指 令被处理器运行时, 完成权利要求 1‑3任一项所述的方
法。
6.一种计算机可读存储介质, 其特征在于, 用于存储计算机指令, 所述计算机指令被处
理器执行时, 完成权利要求1 ‑3任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 113010963 B
3
专利 基于深度强化学习的变质量水下航行器避障方法及系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:19上传分享