(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110269453.4
(22)申请日 2021.03.12
(65)同一申请的已公布的文献号
申请公布号 CN 113128698 A
(43)申请公布日 2021.07.16
(73)专利权人 合肥工业大 学
地址 230009 安徽省合肥市包河区屯溪路
193号
(72)发明人 王国强 陈宇轩 罗贺 马滢滢
蒋儒浩 胡笑旋 唐奕城 靳鹏
马华伟 夏维
(74)专利代理 机构 北京久诚知识产权代理事务
所(特殊普通 合伙) 11542
专利代理师 余罡
(51)Int.Cl.
G06N 20/00(2019.01)
G06F 30/27(2020.01)(56)对比文件
CN 112180967 A,2021.01.0 5
CN 112215283 A,2021.01.12
CN 111260031 A,2020.0 6.09
CN 112131660 A,2020.12.25
CN 112256056 A,2021.01.2 2
US 2020312163 A1,2020.10.01
G. Zhang等. “Efficient Trai ning
Techniques for Multi-Agent Rei nforcement
Learning in Combat Tasks ”. 《IEEE Access》
.2019,第7 卷
丁林静等. “基于强化学习的无 人机空战机
动决策”. 《航空电子技 术》 .2018,第49卷(第02
期),
余敏建等. “基于合作协同进化的多机空战
目标分配 ”. 《系统工程与电子技 术》 .2020,第42
卷(第06期),
审查员 刘梦晨
(54)发明名称
多无人机协同对抗决策的强化学习方法
(57)摘要
本发明提供一种多无人机协同对抗决策的
强化学习方法, 涉及无人机 领域, 包括: 获取无人
机初始状态数据并进行格式转换; 对 无人机初始
状态数据进行数据补全处理; 对 数据补全后的无
人机初始 状态数据进行数据转换和归一化处理,
得到无人机状态数据; 基于 预设的Actor‑Critic
算法对无人机状态数据进行处理, 得到当前回合
的多无人机协同对抗重决策结果; 将多无人机协
同对抗重决策结果输入到预设的仿真场景中, 多
无人机基于多无人机协同对抗重决策结果进行
对抗, 得到多无人机协 同对抗数据, 并将多无人
机协同对抗数据作为下一回合的无人机初始状
态数据, 以得到下一回合的多无人机协同对抗重
决策结果。 本发 明可以得到最适应 当前环境下的
无人机重决策方案 。
权利要求书3页 说明书10页 附图1页
CN 113128698 B
2022.09.20
CN 113128698 B
1.一种多无人机协同对抗决策的强化学习方法, 所述强化学习方法由计算机执行, 其
特征在于, 包括以下步骤:
获取无人机初始状态数据, 并对所述无人机初始状态数据进行格式转换, 得到预设格
式的无人机初始状态数据;
对预设格式的无人机初始状态数据进行数据补全处理; 对数据补全后的无人机初始状
态数据进行 数据转换和归一 化处理, 得到无 人机状态数据;
基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理, 得到当前 回合的多无
人机协同对抗重决策 结果;
将所述多无人机协同对抗重决策结果输入到预设的仿真场景中, 多无人机基于所述多
无人机协同对抗重决策结果进行对抗, 得到多无人机协同对抗数据, 并将所述多无人机协
同对抗数据作为下一回合的无人机初始状态数据, 以得到下一回合的多 无人机协同对抗重
决策结果;
基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理所得的奖励回报包括:
无人机损毁奖励回报和无 人机态势奖励回报;
所述无人机态势奖励回报包括: 距离优势奖励回报、 角度优势奖励回报和速度优势奖
励回报;
所述距离优势奖励回报的计算方法包括:
其中:
r1表示距离优势奖励回报;
DRmax为雷达最大搜索距离;
DMmax为导弹攻击距离;
DRiBj表示为我方第 i架无人机到敌方第 j架无人机的距离;
所述角度优势奖励回报的计算方法包括:
其中:
r2表示角度优势奖励回报;权 利 要 求 书 1/3 页
2
CN 113128698 B
2βij表示我方无人机方位角, 为我方第 i架无人机, 以及我方第 i架无人机到敌方第 j架无
人机连线间的夹角;
θji表示敌方无人机方位角, 为敌方第 j架无人机, 以及敌方第 j架无人机到我方第 i架无
人机连线间的夹角;
所述速度优势奖励回报的计算方法包括:
其中:
r3表示速度优势奖励回报;
ν0表示最佳攻击 速度;
νr表示我方 无人机速度;
νb表示敌方 无人机速度;
νmax表示无人机最大速度;
dw表示无人机的武器最大射 程。
2.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 所述无人
机初始状态数据包括: 无人机横坐标、 无人机纵坐标、 无人机飞行高度、 无人机飞行速度、 无
人机横滚角、 无 人机航向角、 无 人机俯仰角、 无 人机余弹数量和无 人机类型。
3.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 对所述无
人机初始状态数据进行格式转换, 包括:
将Json格式的无 人机初始状态数据转换为字符串格式的数据。
4.如权利要求1所述的多无 人机协同对抗决策的强化学习方法, 其特 征在于, 还 包括:
获取所述预设的仿真场景反馈的信息, 包括: 多无 人机协同对抗数据和结束指令;
当获取到多无人机协同对抗数据时, 将所述多无人机协同对抗数据作为下一 回合的无
人机初始状态数据, 并对无 人机初始状态数据进行 数据补全处 理;
当获取到结束指令时, 计算所有回合的奖励回报。
5.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 所述对预
设格式的无 人机初始状态数据进行 数据补全处 理, 包括:
检测多架无人机 中是否存在损毁情况; 若是, 则对损毁的无人机进行数据补零处理, 若
否, 则不进行处 理;
所述对数据补全后的无 人机初始状态数据进行 数据转换, 包括:
将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式, 以使数据 可以作
为神经网络的输入。
6.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 基于预设
的Actor‑Critic算法对所述无 人机状态数据进行处 理, 包括:权 利 要 求 书 2/3 页
3
CN 113128698 B
3
专利 多无人机协同对抗决策的强化学习方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:39上传分享