专利一种基于图神经网络强化学习的异质平台冲突消解方法

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111557745.4 (22)申请日 2021.12.20 (65)同一申请的已公布的文献号申请公布号 CN 113962031 A (43)申请公布日 2022.01.21 (73)专利权人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人李宇萌　张云赫　郭通　杜文博　 (74)专利代理机构北京天汇航智知识产权代理事务所(普通合伙) 11987 代理人黄川　史继颖 (51)Int.Cl. G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)(56)对比文件 CN 110084414 A,2019.08.02 CN 113741525 A,2021.12.0 3 CN 1091919 23 A,2019.01.1 1 CN 109443366 A,2019.0 3.08 US 2020342612 A1,2020.10.2 9 CN 111897316 A,2020.1 1.06 魏纯洁等. “飞行冲突解脱方法研究综述 ”. 《中国民航飞行学院院报》 .2021,第32卷(第6 期),5-9. Kaidi, R.等. “Neural Netw ork Apply to predict aircraft trajectory for co nflict resolution”. 《2014 9TH I NTERNATIONAL CONFERENC E ON INTELLIGENT SYSTE MS: THEORIES AND AP PLICATIONS (SITA "14)》 .2014,摘要. 审查员赵恒昌 (54)发明名称一种基于图神经网络强化学习的异质平台冲突消解方法 (57)摘要本发明提供了一种基于图神经网络强化学习的异质平台冲突消解方法，包括以下步骤：首先根据各异质飞行器的具体类型和特征设置相应的状态矢量，动作空间矢量；接下来初始化各异质飞行器的起始位置，目标点位置和相关状态信息，根据状态以及环境信息建立冲突网络图结构，建立冲突程度评价函数；然后建立图神经网络结构，并进行训练；最后使用训练后的图神经网络模型完成异质平台的冲突消解。本发明的图神经网络结构通过状态信息编码模块将异质飞行器的状态矢量编码为相同维度的状态矢量，图卷积网络模块提取特征向量，动作选择模块得到状态‑动作值，结合强化学习训练各异质飞行器，为异质平台的冲突消解问题提供了一种有效可行的解决方案。权利要求书2页说明书6页附图4页 CN 113962031 B 2022.03.29 CN 113962031 B 1.一种基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，包括以下步骤：步骤一、根据各异质飞行器的具体类型和特征设置相应的状态向量，动作空间向量，神经网络最大迭代次数T；步骤二、初始化各异质飞行器的起始位置、目标点位置和相关状态信息，根据状态以及环境信息建立冲突网络图结构G，建立冲突程度评价函数，设置冲突程度阈值；步骤三、建立图神经网络结构，包括状态信息编码模块、图卷积网络模块、动作选择模块；步骤四、对步骤三中建立的图神经网络结构进行训练，根据各异质飞行器的具体特征设置各自的收益函数，计算飞行器采取动作所获取的收益；应用两个结构完全相同参数不同的神经网络—PolicyNet和TargetNet，其中TargetNet用来产生稳定的目标值， PolicyNet则输出预测值，每个更新周期 L用PolicyNet网络的参数来更新TargetNet 网络；步骤五、使用训练后的图神经网络结构完成异质飞行器的冲突消解，对于每个飞行时刻，根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构G，根据冲突程度评价函数评估冲突网络，如果冲突程度C大于等于阈值，则将该冲突网络输入训练后的图神经网络结构，提取各异质飞行器的状态信息，经过状态信息编码模块、图卷积网络模块、动作选择模块输出各异质飞行器的动作决策A；如果冲突程度C小于阈值，各异质飞行器保持当前飞行动作；步骤六、各异质飞行器反复执行步骤五，并根据步骤五中得到的动作决策A执行相应的飞行操作，直到各异质飞行器到达各自目标点。 2.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤二中，所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之间的冲突连边E ，其中各异质飞行器的位置作为冲突网络图结构G的点序列，式中a表示a类飞行器、 M表示M个a类飞行器、 b表示 b类飞行器、 N表示N个b类飞行器，冲突连边E通过速度障碍模型判断两个飞行器之间是否存在潜在冲突，如果存在潜在冲突，则两个飞行器之间存在连边，否则，两个飞行器之间没有连边。 3.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤三中，所述状态信息编码模块为多层感知机，输入异质平台飞行器的不同维度的状态信息向量S，输出维度同为m的定长状态向量；所述图卷积网络模块为多层图注意力网络，输入组合在一起的维度m的状态向量，输出维度为m的特征向量u；所述动作选择模块为状态 ‑动作值函数，即输入提取的状态特征向量u，输出各异质飞行器选择不同动作对应的Q值，各异质飞行器分别选择各自Q值最大所对应的动作。 4.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法，其特征在于，所述步骤四中，图神经网络结构进行训练包括以下步骤：权　利　要　求　书 1/2 页 2 CN 113962031 B 2步骤401、初始化动作所对应的Q值，随机初始化步骤三中建立图神经网络中PolicyNet 的所有参数，初始化TargetNet网络的所有参数，建立经验回放集合Experience Replay；步骤402、时间步t从1到最大迭代次数T，进行迭代，重复执行步骤40 3‑410；步骤403、图神经网络输入各异质飞行器当前状态S，得到动作选择模块输出的Q值输出；用在当前Q值输出中选择对应的动作集合A; 步骤404、在状态S执行该动作集合A，得到新状态和收益R，各飞行器是否到达目标点 terminal；步骤405、将元组存入经验集合Experience Replay；步骤406、更新当前状态，；步骤407 、从经验回放集合Experience Replay中随机采样w个样本；步骤408、利用如下损失函数计算 loss：其中，M表示M个a类飞行器， N表示N个b类飞行器， M+N表示所有飞行器的数量，表示第 i架飞行器获取收益，表示折扣因子，表示状态S 下采取动作A对应的Q值，通过神经网络梯度反向传播来更新网络的所有参数；步骤409、如果，则更新目标网络参数：，其中t代表当前时间步， L代表网络参数更新周期；步骤410、判断各异质飞行器是否到达目标点，到达则结束迭代，否则转到步骤40 3。权　利　要　求　书 2/2 页 3 CN 113962031 B 3

专利 一种基于图神经网络强化学习的异质平台冲突消解方法

专利一种基于图神经网络强化学习的异质平台冲突消解方法