(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111557745.4
(22)申请日 2021.12.20
(65)同一申请的已公布的文献号
申请公布号 CN 113962031 A
(43)申请公布日 2022.01.21
(73)专利权人 北京航空航天大 学
地址 100191 北京市海淀区学院路37号
(72)发明人 李宇萌 张云赫 郭通 杜文博
(74)专利代理 机构 北京天汇航智知识产权代理
事务所(普通 合伙) 11987
代理人 黄川 史继颖
(51)Int.Cl.
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)(56)对比文件
CN 110084414 A,2019.08.02
CN 113741525 A,2021.12.0 3
CN 1091919 23 A,2019.01.1 1
CN 109443366 A,2019.0 3.08
US 2020342612 A1,2020.10.2 9
CN 111897316 A,2020.1 1.06
魏纯洁 等. “飞行冲突 解脱方法研究综述 ”.
《中国民航飞行 学院院报》 .2021,第32卷(第6
期),5-9.
Kaidi, R.等. “Neural Netw ork Apply to
predict aircraft trajectory for co nflict
resolution”. 《2014 9TH I NTERNATIONAL
CONFERENC E ON INTELLIGENT SYSTE MS:
THEORIES AND AP PLICATIONS (SITA "14)》
.2014,摘要.
审查员 赵恒昌
(54)发明名称
一种基于图神经网络强化学习的异质平台
冲突消解方法
(57)摘要
本发明提供了一种基于图神经网络强化学
习的异质 平台冲突消解方法, 包括以下步骤: 首
先根据各异质飞行器的具体类型和特征设置相
应的状态矢量, 动作空间矢量; 接下来初始化各
异质飞行器的起始位置, 目标点位置和相关状态
信息, 根据状态以及环境信息建立冲突网络图结
构, 建立冲突程度评价函数; 然后建立图神经网
络结构, 并进行训练; 最后使用训练后的图神经
网络模型完成异质平台的冲突消解。 本发明的 图
神经网络结构通过状态信息编码模块将异质飞
行器的状态矢量编码为相同维度的状态矢量, 图
卷积网络模块提取特征向量, 动作选择模块得到
状态‑动作值, 结合强化学习训练各异质飞行器,
为异质平台的冲突消解问题提供了一种有效可
行的解决方案 。
权利要求书2页 说明书6页 附图4页
CN 113962031 B
2022.03.29
CN 113962031 B
1.一种基于 图神经网络强化学习的异质平台冲突消解方法, 其特征在于, 包括以下步
骤:
步骤一、 根据各异质飞行器的具体类型和特征设置相应的状态向量, 动作空间向量, 神
经网络最大迭代次数T;
步骤二、 初始化各异质飞行器的起始位置、 目标点位置和相关状态信 息, 根据状态以及
环境信息建立冲突网络图结构G, 建立冲突 程度评价 函数
, 设置冲突 程度阈值
;
步骤三、 建立图神经网络结构, 包括状态信息编码模块、 图卷积网络模块、 动作选择模
块;
步骤四、 对步骤三中建立的图神经网络结构进行训练, 根据各异质飞行器的具体特征
设置各自的收益函数, 计算飞行器采取动作所获取 的收益; 应用两个结构完全相同参数不
同的神经网络—PolicyNet和TargetNet, 其中TargetNet用来产生稳定的目标值
,
PolicyNet则输出预测值
, 每个更新周期 L用PolicyNet网络的参数来更新TargetNet
网络;
步骤五、 使用训练后的图神经网络结构完成异质飞行器的冲突消解, 对于每个飞行时
刻, 根据当前所有异质飞行器的飞行状态和环境信息更新冲突网络图结构G, 根据冲突程度
评价函数
评估冲突网络, 如果冲突程度C大于等于阈值
, 则将该冲突网络输入训练
后的图神经网络结构, 提取各异质飞行器的状态信息, 经过状态信息编码模块、 图卷积网络
模块、 动作选择模块输出各异质飞行器的动作决策A; 如果冲突程度C小于阈值
, 各异质飞
行器保持当前飞行动作;
步骤六、 各异质飞行器反复执行步骤五, 并根据步骤五中得到的动作决策A执行相应的
飞行操作, 直到各异质飞行器到 达各自目标点。
2.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法, 其特征
在于, 所述步骤二中, 所述冲突网络图结构G包含表示不同种类飞行器的节点V和飞行器之
间的 冲突连边E , 其中各异 质飞行器的位置作为冲突网络图 结构G的点序列
, 式中a表示a类飞行器、 M表示M个a类飞行器、 b表示
b类飞行器、 N表示N个b类飞行器, 冲突连边E通过速度障碍模型判断两个飞行器之间是否存
在潜在冲突, 如果存在潜在冲突, 则两个飞行器之间存在连边, 否则, 两个飞行器之间没有
连边。
3.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法, 其特征
在于, 所述步骤三中, 所述状态信息编 码模块为多层感知机, 输入异质平台飞行器的不同维
度的状态信息向量S, 输出维度同为m的定长状态向量; 所述图卷积网络模块为多层图注意
力网络, 输入组合在一起的维度m的状态向量, 输出维度为m的特征向量u; 所述动作选择模
块为状态 ‑动作值函数, 即输入提取 的状态特征向量u, 输出各异质飞行器选择不同动作对
应的Q值, 各异质飞行器分别选择 各自Q值最大所对应的动作。
4.根据权利要求1所述的基于图神经网络强化学习的异质平台冲突消解方法, 其特征
在于, 所述 步骤四中, 图神经网络结构进行训练包括以下步骤:权 利 要 求 书 1/2 页
2
CN 113962031 B
2步骤401、 初始化动作所对应的Q值, 随机初始化步骤三 中建立图神经网络中PolicyNet
的所有参数
, 初始化TargetNet网络的所有参数
, 建立经验回放集合Experience
Replay;
步骤402、 时间步t从1到最大迭代次数T, 进行迭代, 重复执 行步骤40 3‑410;
步骤403、 图神经网络输入各异质飞行器当前状态S, 得到动作选择模块输出的Q值输
出; 用
在当前Q值输出中选择对应的动作集 合A;
步骤404、 在状态S执行该动作集合A, 得到新状态
和收益R, 各 飞行器是否到达目标点
terminal;
步骤405、 将
元组存入经验集 合Experience Replay;
步骤406、 更新当前状态,
;
步骤407 、 从经验回 放集合Experience Replay中随 机采样w个样本
;
步骤408、 利用如下损失函数计算 loss:
其中,M表示M个a类飞行器, N表示N个b类飞行器, M+N表示所有 飞行器的数量,
表示第
i架飞行器获取收益,
表示折扣因子,
表示状态S 下采取动作A对应的Q值, 通过
神经网络梯度反向传播 来更新网络的所有参数
;
步骤409、 如果
, 则更新目标网络参数:
, 其中t代表当前时间步, L代
表网络参数 更新周期;
步骤410、 判断各异质飞行器是否 到达目标点, 到 达则结束迭代, 否则转到步骤40 3。权 利 要 求 书 2/2 页
3
CN 113962031 B
3
专利 一种基于图神经网络强化学习的异质平台冲突消解方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:18:20上传分享