专利多无人机协同对抗决策的强化学习方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110269453.4 (22)申请日 2021.03.12 (65)同一申请的已公布的文献号申请公布号 CN 113128698 A (43)申请公布日 2021.07.16 (73)专利权人合肥工业大学地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人王国强　陈宇轩　罗贺　马滢滢　蒋儒浩　胡笑旋　唐奕城　靳鹏　马华伟　夏维　 (74)专利代理机构北京久诚知识产权代理事务所(特殊普通合伙) 11542 专利代理师余罡 (51)Int.Cl. G06N 20/00(2019.01) G06F 30/27(2020.01)(56)对比文件 CN 112180967 A,2021.01.0 5 CN 112215283 A,2021.01.12 CN 111260031 A,2020.0 6.09 CN 112131660 A,2020.12.25 CN 112256056 A,2021.01.2 2 US 2020312163 A1,2020.10.01 G. Zhang等. “Efficient Trai ning Techniques for Multi-Agent Rei nforcement Learning in Combat Tasks ”. 《IEEE Access》 .2019,第7 卷丁林静等. “基于强化学习的无人机空战机动决策”. 《航空电子技术》 .2018,第49卷(第02 期), 余敏建等. “基于合作协同进化的多机空战目标分配 ”. 《系统工程与电子技术》 .2020,第42 卷(第06期), 审查员刘梦晨 (54)发明名称多无人机协同对抗决策的强化学习方法 (57)摘要本发明提供一种多无人机协同对抗决策的强化学习方法，涉及无人机领域，包括：获取无人机初始状态数据并进行格式转换；对无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor‑Critic 算法对无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果。本发明可以得到最适应当前环境下的无人机重决策方案。权利要求书3页说明书10页附图1页 CN 113128698 B 2022.09.20 CN 113128698 B 1.一种多无人机协同对抗决策的强化学习方法，所述强化学习方法由计算机执行，其特征在于，包括以下步骤：获取无人机初始状态数据，并对所述无人机初始状态数据进行格式转换，得到预设格式的无人机初始状态数据；对预设格式的无人机初始状态数据进行数据补全处理；对数据补全后的无人机初始状态数据进行数据转换和归一化处理，得到无人机状态数据；基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理，得到当前回合的多无人机协同对抗重决策结果；将所述多无人机协同对抗重决策结果输入到预设的仿真场景中，多无人机基于所述多无人机协同对抗重决策结果进行对抗，得到多无人机协同对抗数据，并将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，以得到下一回合的多无人机协同对抗重决策结果；基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理所得的奖励回报包括：无人机损毁奖励回报和无人机态势奖励回报；所述无人机态势奖励回报包括：距离优势奖励回报、角度优势奖励回报和速度优势奖励回报；所述距离优势奖励回报的计算方法包括：其中： r1表示距离优势奖励回报； DRmax为雷达最大搜索距离； DMmax为导弹攻击距离； DRiBj表示为我方第 i架无人机到敌方第 j架无人机的距离；所述角度优势奖励回报的计算方法包括：其中： r2表示角度优势奖励回报；权　利　要　求　书 1/3 页 2 CN 113128698 B 2βij表示我方无人机方位角，为我方第 i架无人机，以及我方第 i架无人机到敌方第 j架无人机连线间的夹角； θji表示敌方无人机方位角，为敌方第 j架无人机，以及敌方第 j架无人机到我方第 i架无人机连线间的夹角；所述速度优势奖励回报的计算方法包括：其中： r3表示速度优势奖励回报； ν0表示最佳攻击速度； νr表示我方无人机速度； νb表示敌方无人机速度； νmax表示无人机最大速度； dw表示无人机的武器最大射程。 2.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述无人机初始状态数据包括：无人机横坐标、无人机纵坐标、无人机飞行高度、无人机飞行速度、无人机横滚角、无人机航向角、无人机俯仰角、无人机余弹数量和无人机类型。 3.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，对所述无人机初始状态数据进行格式转换，包括：将Json格式的无人机初始状态数据转换为字符串格式的数据。 4.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，还包括：获取所述预设的仿真场景反馈的信息，包括：多无人机协同对抗数据和结束指令；当获取到多无人机协同对抗数据时，将所述多无人机协同对抗数据作为下一回合的无人机初始状态数据，并对无人机初始状态数据进行数据补全处理；当获取到结束指令时，计算所有回合的奖励回报。 5.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，所述对预设格式的无人机初始状态数据进行数据补全处理，包括：检测多架无人机中是否存在损毁情况；若是，则对损毁的无人机进行数据补零处理，若否，则不进行处理；所述对数据补全后的无人机初始状态数据进行数据转换，包括：将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式，以使数据可以作为神经网络的输入。 6.如权利要求1所述的多无人机协同对抗决策的强化学习方法，其特征在于，基于预设的Actor‑Critic算法对所述无人机状态数据进行处理，包括：权　利　要　求　书 2/3 页 3 CN 113128698 B 3

专利 多无人机协同对抗决策的强化学习方法

专利多无人机协同对抗决策的强化学习方法