专利基于D3QN的无人船自适应路径规划方法、设备及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110118727.X (22)申请日 2021.01.28 (65)同一申请的已公布的文献号申请公布号 CN 112800545 A (43)申请公布日 2021.05.14 (73)专利权人中国地质大学（武汉）地址 430000 湖北省武汉市洪山区鲁磨路 388号 (72)发明人胡潇文　刘峰　陈畅　杨茜　 (74)专利代理机构武汉知产时代知识产权代理有限公司 42 238 专利代理师万文广 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 10/04(2012.01) G06Q 50/30(2012.01) (56)对比文件 CN 110488872 A,2019.1 1.22 CN 111829527 A,2020.10.27 CN 110472738 A,2019.1 1.19 CN 110362089 A,2019.10.2 2 WO 2019241022 A1,2019.12.19 US 20191845 61 A1,2019.0 6.20 CN 110703766 A,2020.01.17 CN 111880549 A,2020.1 1.03 王猛等.基于改进Q学习算法的无人水面艇动态环境路径规划. 《仪表技术》 .2020,(第04 期),第17-21页. 审查员贾慧敏 (54)发明名称基于D3QN的无人船自适应路径规划方法、设备及存储介质 (57)摘要本发明属于无人船路径规划领域，通过学习的方式使无人船进行自适应的路径规划。主要包括：构建无人船模型，将无人船放在仿真环境下航行；无人船按照行为空间的行为随机探索；通过无人船的深度相机获取环境图像信息，通过定位系统获取无人船位置信息，将探索得到的数据存放到优先经验回放池；将回放池的数据提取进行D3QN网络的训练；将训练好的网络模型加载到实际无人船中，进行真实环境路径规划。本发明可以在不需要先验信息的情况下，使路径规划精度高，碰撞率小，无人船的自适应能力强。权利要求书3页说明书7页附图3页 CN 112800545 B 2022.06.24 CN 112800545 B 1.一种基于D3QN的无人船自适应路径规划方法，其特征在于，所述无人船自适应路径规划方法包括以下步骤： S1、构建无人船模型和水下仿真环境，设计D3QN网络，将所述无人船模型放在所述水下仿真环境下自主航行； S2、从当前状态S根据 ε ‑贪婪算法选择行为A； S3、根据所述行为A采用PID位置和速度误差控制算法使无人船到达下一个状态S ’，获取下一个状态S ’处与障碍物的第一位置关系，获取下一个状态S ’处与终点的第二位置关系，根据所述第一位置关系和所述第二位置关系利用奖惩机制得到回报R； S4、获取当前状态S的环境信息和位置信息，合并为当前状态数据s，获取下一个状态S ’ 的环境信息和位置信息，合并为下一个状态数据s ’，将当前状态数据s、行为A、下一个状态数据s’和回报R以数组D的形式存放到优先经验回放池中，并通过TD ‑error计算得到优先经验回放池中数组D的采样概率； S5、根据所述采样概率将所述经验回放池中的数组D提取到D3QN网络，进行D3QN网络的梯度下降误差训练，并判断是否满足终止条件，若满足，获得训练的无人船自适应路径规划模型，并执行步骤S6，否则，将下一个状态S’作为当前状态S，返回步骤S2； S6、将所述训练的无人船自适应路径规划模型导入到无人船路径规划系统，进行真实环境的无人船路径规划，并获得无人船路径。 2.根据权利要求1所述的无人船自适应路径规划方法，其特征在于，所述构建无人船模型和水下仿真环境，设计D3Q N网络的步骤包括：通过ROS和Gazebo搭建所述无人船模型和所述水下仿真环境；通过LSTM网络、卷积神经网络和对抗性的全连接网络分别构成主网络和目标网络；通过所述主网络、所述目标网络和经验回放池构成所述D3Q N网络。 3.根据权利要求1所述的无人船自适应路径规划方法，其特征在于，所述无人船模型上设置深度相机和定位系统；所述深度相机用于获取当前环境信息；所述定位系统用于获取无人船的位置信息。 4.根据权利要求 2所述的无人船自适应路径规划方法，其特征在于，所述步骤S5具体包括：将整个所述优先经验回放池的空间按最小样本量M分为M个小范围；在每个所述小范围内根据所述采样概率随机提取一个样本数据；根据所述样本数据得到当前状态数据s和下一个状态数据s ’；通过所述主网络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s ’，得到所述主网络的输出Q和所述目标网络的输出Q1；根据所述 Q1和所述 Q计算得到目标输出Qt；根据所述 Q和所述Qt计算得到误差函数；基于所述误差函数采用梯度下降方法训练所述D3QN网络，判断误差函数是否满足终止条件，若满足，获得训练的无人船自适应路径规划模型，并执行步骤S 6，否则，将下一个状态 S’作为当前状态S，返回步骤S2，重新训练。 5.根据权利要求4所述的无人船自适应路径规划方法，其特征在于，所述通过所述主网权　利　要　求　书 1/3 页 2 CN 112800545 B 2络和所述目标网络分别处理所述当前状态数据s和下一个状态数据s ’，得到所述主网络的输出Q和所述目标网络的输出Q1的步骤包括：通过所述主网络的卷积神经网络处理所述当前状态数据s中的环境信息，得到第一环境信息；通过所述主网络的LSTM网络处理所述当前状态数据s中的位置信息，得到第一位置信息；将所述第一环境信息和所述第一位置信息结合并输入到所述主网络中的对抗性全连接网络中，得到所述主网络的输出Q；通过所述目标网络的卷积神经网络处理下一个状态数据s ’中的环境信息，得到第二环境信息；通过所述目标网络的LSTM 网络处理下一个状态数据s ’中的位置信息，得到第二位置信息；将所述第二环境信息和所述第二位置信息结合并输入到所述目标网络中的对抗性全连接网络中，得到所述目标网络的输出Q1。 6.根据权利要求2所述的无人船自适应路径规划方法，其特征在于，所述ε ‑贪婪算法为：其中， ε∈(0， 1)， Step为训练步数， ε被设置为衰减函数类型，贪婪算法以ε的概率随机从行为空间选择行为，以1 ‑ε 的概率选择得到所述主网络的输出Q 最大的行为。 7.根据权利要求1所述的无人船自适应路径规划方法，其特征在于，所述奖惩机制为：其中， R为回报， do表示当前状态S无人船与终点的距离， dt表示下一个状态S ’无人船与终点的距离。 8.根据权利要求1所述的无人船自适应路径规划方法，其特征在于，所述PID位置和速度误差控制算法为： Ep＝[P(x′， y′， z′)‑P(x， y， z)， O(r ′， p′， y′)‑O(r， p， y)] Ev＝[v(x ′， y′， z′)‑v(x， y， z)， (x ′， y′， z′)‑ω(x， y， z)] 其中， Ep为偏向角， Ev为速度偏差， r、 p和y为无人船分别与x轴、 y轴和z轴偏向的角度， P (x′， y′， z′)， O(r′， p′， y′)分别为下一个状态S ’无人船的位置和偏向角， v(x ′， y′， z′)， ω (x′， y′， z′)为采取行为A给定目标的线速度和角速度， P(x， y， z)， O(r， p， y)分别为当前状态 S无人船的位置和偏向角， v(x， y， z)， ω(x， y， z)分别为当前状态S无人船的线速度和角速度。 9.一种基于D3QN的无人船自适应路径规划设备，其特征在于，所述无人船自适应路径权　利　要　求　书 2/3 页 3 CN 112800545 B 3

专利 基于D3QN的无人船自适应路径规划方法、设备及存储介质

专利基于D3QN的无人船自适应路径规划方法、设备及存储介质