(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110118727.X
(22)申请日 2021.01.28
(65)同一申请的已公布的文献号
申请公布号 CN 112800545 A
(43)申请公布日 2021.05.14
(73)专利权人 中国地质大 学 (武汉)
地址 430000 湖北省武汉市洪山区鲁磨路
388号
(72)发明人 胡潇文 刘峰 陈畅 杨茜
(74)专利代理 机构 武汉知产时代知识产权代理
有限公司 42 238
专利代理师 万文广
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 10/04(2012.01)
G06Q 50/30(2012.01)
(56)对比文件
CN 110488872 A,2019.1 1.22
CN 111829527 A,2020.10.27
CN 110472738 A,2019.1 1.19
CN 110362089 A,2019.10.2 2
WO 2019241022 A1,2019.12.19
US 20191845 61 A1,2019.0 6.20
CN 110703766 A,2020.01.17
CN 111880549 A,2020.1 1.03
王猛等.基于改进Q学习算法的无 人水面艇
动态环境路径规划. 《仪表技 术》 .2020,(第04
期),第17-21页.
审查员 贾慧敏
(54)发明名称
基于D3QN的无人船自适应 路径规划方法、 设
备及存储介质
(57)摘要
本发明属于无人船路径 规划领域, 通过学习
的方式使无人船进行自适应的路径 规划。 主要包
括: 构建无人船模型, 将无人船放在仿真环境下
航行; 无人船按照行为空间的行为随机探索; 通
过无人船的深度相机获取环境图像信息, 通过定
位系统获取无人船位置信息, 将 探索得到的数据
存放到优先经验回放池; 将回放池的数据提取进
行D3QN网络的训练; 将训练好的网络模型加载到
实际无人船中, 进行真实环境路径规划。 本发明
可以在不需要先验信息的情况下, 使路径规划精
度高, 碰撞率小, 无 人船的自适应能力强。
权利要求书3页 说明书7页 附图3页
CN 112800545 B
2022.06.24
CN 112800545 B
1.一种基于D3QN的无人船自适应路径规划方法, 其特征在于, 所述无人船自适应路径
规划方法包括以下步骤:
S1、 构建无人船模型和水下仿真环境, 设计D3QN网络, 将所述无人船模型放在所述水下
仿真环境下自主航行;
S2、 从当前状态S根据 ε ‑贪婪算法选择 行为A;
S3、 根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S ’, 获
取下一个状态S ’处与障碍物的第一位置关系, 获取下一个状态S ’处与终点的第二位置关
系, 根据所述第一 位置关系和所述第二 位置关系利用奖惩机制得到回报R;
S4、 获取当前状态S的环境信息和位置信息, 合并为当前状态数据s, 获取下一个状态S ’
的环境信息和位置信息, 合并为下一个状态数据s ’, 将当前状态数据s、 行为A、 下一个状态
数据s’和回报R以数 组D的形式存放到优 先经验回放池中, 并通过TD ‑error计算得到优 先经
验回放池中数组D的采样概 率;
S5、 根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络, 进行D3QN网络的
梯度下降误差训练, 并判断是否满足终止条件, 若满足, 获得训练的无人船自适应路径规划
模型, 并执 行步骤S6, 否则, 将下一个 状态S’作为当前状态S, 返回步骤S2;
S6、 将所述训练的无人船自适应路径规划模型导入到无人船路径规划系统, 进行真实
环境的无 人船路径规划, 并获得 无人船路径。
2.根据权利要求1所述的无人船自适应路径规划方法, 其特征在于, 所述构建无人船模
型和水下仿真环境, 设计D3Q N网络的步骤 包括:
通过ROS和Gazebo搭建所述无 人船模型和所述水 下仿真环境;
通过LSTM网络、 卷积神经网络和对抗 性的全连接网络分别构成主网络和目标网络;
通过所述主网络、 所述目标网络和经验回放池构成所述D3Q N网络。
3.根据权利要求1所述的无人船自适应路径规划方法, 其特征在于, 所述无人船模型上
设置深度相机和定位系统;
所述深度相机用于获取当前环境信息;
所述定位系统用于获取 无人船的位置信息 。
4.根据权利要求 2所述的无人船自适应路径规划方法, 其特征在于, 所述步骤S5具体
包括:
将整个所述优先 经验回放池的空间按最小样本量M分为M个小范围;
在每个所述小范围内根据所述采样概 率随机提取一个样本数据;
根据所述样本数据得到当前状态数据s和下一个 状态数据s ’;
通过所述主网络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s ’,
得到所述主网络的输出Q和所述目标网络的输出Q1;
根据所述 Q1和所述 Q计算得到目标输出Qt;
根据所述 Q和所述Qt计算得到误差函数;
基于所述误差函数采用梯度 下降方法训练所述D3QN网络, 判断误差函数是否满足终止
条件, 若满足, 获得训练的无人船自适应路径规划模型, 并执行步骤S 6, 否则, 将下一个状态
S’作为当前状态S, 返回步骤S2, 重新训练。
5.根据权利要求4所述的无人船自适应路径规划方法, 其特征在于, 所述通过所述主网权 利 要 求 书 1/3 页
2
CN 112800545 B
2络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s ’, 得到所述主网络的
输出Q和所述目标网络的输出Q1的步骤 包括:
通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息, 得到第一环
境信息;
通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息, 得到第一位置信
息;
将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连
接网络中, 得到所述主网络的输出Q;
通过所述目标网络的卷积神经网络处理下一个状态数据s ’中的环境信息, 得到第二环
境信息;
通过所述目标网络的LSTM 网络处理下一个状态数据s ’中的位置信息, 得到第二位置信
息;
将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全
连接网络中, 得到所述目标网络的输出Q1。
6.根据权利要求2所述的无人船自适应路径规划方法, 其特征在于, 所述ε ‑贪婪算法
为:
其中, ε∈(0, 1), Step为训练步数, ε被设置为衰减函数类型, 贪婪算法以ε的概率随机
从行为空间选择 行为, 以1 ‑ε 的概率选择得到所述主网络的输出Q 最大的行为。
7.根据权利要求1所述的无 人船自适应路径规划方法, 其特 征在于, 所述奖惩机制为:
其中, R为回报, do表示当前状态S无人船与终点的距离, dt表示下一个状态S ’无人船与
终点的距离 。
8.根据权利要求1所述的无人船自适应路径规划方法, 其特征在于, 所述PID位置和速
度误差控制算法为:
Ep=[P(x′, y′, z′)‑P(x, y, z), O(r ′, p′, y′)‑O(r, p, y)]
Ev=[v(x ′, y′, z′)‑v(x, y, z), (x ′, y′, z′)‑ω(x, y, z)]
其中, Ep为偏向角, Ev为速度偏差, r、 p和y为无人船分别与x轴、 y轴和z轴偏向的角度, P
(x′, y′, z′), O(r′, p′, y′)分别为下一个状态S ’无人船的位置和偏向角, v(x ′, y′, z′), ω
(x′, y′, z′)为采取行为A给定目标的线速度和角速度, P(x, y, z), O(r, p, y)分别为当前状态
S无人船的位置和偏向角, v(x, y, z), ω(x, y, z)分别为当前状态S无人船的线速度和角速
度。
9.一种基于D3QN的无人船自适应路径规划设备, 其特征在于, 所述无人船自适应路径权 利 要 求 书 2/3 页
3
CN 112800545 B
3
专利 基于D3QN的无人船自适应路径规划方法、设备及存储介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:22:38上传分享