说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110269453.4 (22)申请日 2021.03.12 (65)同一申请的已公布的文献号 申请公布号 CN 113128698 A (43)申请公布日 2021.07.16 (73)专利权人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 王国强 陈宇轩 罗贺 马滢滢  蒋儒浩 胡笑旋 唐奕城 靳鹏  马华伟 夏维  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 余罡 (51)Int.Cl. G06N 20/00(2019.01) G06F 30/27(2020.01)(56)对比文件 CN 112180967 A,2021.01.0 5 CN 112215283 A,2021.01.12 CN 111260031 A,2020.0 6.09 CN 112131660 A,2020.12.25 CN 112256056 A,2021.01.2 2 US 2020312163 A1,2020.10.01 G. Zhang等. “Efficient Trai ning Techniques for Multi-Agent Rei nforcement Learning in Combat Tasks ”. 《IEEE Access》 .2019,第7 卷 丁林静等. “基于强化学习的无 人机空战机 动决策”. 《航空电子技 术》 .2018,第49卷(第02 期), 余敏建等. “基于合作协同进化的多机空战 目标分配 ”. 《系统工程与电子技 术》 .2020,第42 卷(第06期), 审查员 刘梦晨 (54)发明名称 多无人机协同对抗决策的强化学习方法 (57)摘要 本发明提供一种多无人机协同对抗决策的 强化学习方法, 涉及无人机 领域, 包括: 获取无人 机初始状态数据并进行格式转换; 对 无人机初始 状态数据进行数据补全处理; 对 数据补全后的无 人机初始 状态数据进行数据转换和归一化处理, 得到无人机状态数据; 基于 预设的Actor‑Critic 算法对无人机状态数据进行处理, 得到当前回合 的多无人机协同对抗重决策结果; 将多无人机协 同对抗重决策结果输入到预设的仿真场景中, 多 无人机基于多无人机协同对抗重决策结果进行 对抗, 得到多无人机协 同对抗数据, 并将多无人 机协同对抗数据作为下一回合的无人机初始状 态数据, 以得到下一回合的多无人机协同对抗重 决策结果。 本发 明可以得到最适应 当前环境下的 无人机重决策方案 。 权利要求书3页 说明书10页 附图1页 CN 113128698 B 2022.09.20 CN 113128698 B 1.一种多无人机协同对抗决策的强化学习方法, 所述强化学习方法由计算机执行, 其 特征在于, 包括以下步骤: 获取无人机初始状态数据, 并对所述无人机初始状态数据进行格式转换, 得到预设格 式的无人机初始状态数据; 对预设格式的无人机初始状态数据进行数据补全处理; 对数据补全后的无人机初始状 态数据进行 数据转换和归一 化处理, 得到无 人机状态数据; 基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理, 得到当前 回合的多无 人机协同对抗重决策 结果; 将所述多无人机协同对抗重决策结果输入到预设的仿真场景中, 多无人机基于所述多 无人机协同对抗重决策结果进行对抗, 得到多无人机协同对抗数据, 并将所述多无人机协 同对抗数据作为下一回合的无人机初始状态数据, 以得到下一回合的多 无人机协同对抗重 决策结果; 基于预设的Actor ‑Critic算法对所述无人机状态数据进行处理所得的奖励回报包括: 无人机损毁奖励回报和无 人机态势奖励回报; 所述无人机态势奖励回报包括: 距离优势奖励回报、 角度优势奖励回报和速度优势奖 励回报; 所述距离优势奖励回报的计算方法包括: 其中: r1表示距离优势奖励回报; DRmax为雷达最大搜索距离; DMmax为导弹攻击距离; DRiBj表示为我方第 i架无人机到敌方第 j架无人机的距离; 所述角度优势奖励回报的计算方法包括: 其中: r2表示角度优势奖励回报;权 利 要 求 书 1/3 页 2 CN 113128698 B 2βij表示我方无人机方位角, 为我方第 i架无人机, 以及我方第 i架无人机到敌方第 j架无 人机连线间的夹角; θji表示敌方无人机方位角, 为敌方第 j架无人机, 以及敌方第 j架无人机到我方第 i架无 人机连线间的夹角; 所述速度优势奖励回报的计算方法包括: 其中: r3表示速度优势奖励回报; ν0表示最佳攻击 速度; νr表示我方 无人机速度; νb表示敌方 无人机速度; νmax表示无人机最大速度; dw表示无人机的武器最大射 程。 2.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 所述无人 机初始状态数据包括: 无人机横坐标、 无人机纵坐标、 无人机飞行高度、 无人机飞行速度、 无 人机横滚角、 无 人机航向角、 无 人机俯仰角、 无 人机余弹数量和无 人机类型。 3.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 对所述无 人机初始状态数据进行格式转换, 包括: 将Json格式的无 人机初始状态数据转换为字符串格式的数据。 4.如权利要求1所述的多无 人机协同对抗决策的强化学习方法, 其特 征在于, 还 包括: 获取所述预设的仿真场景反馈的信息, 包括: 多无 人机协同对抗数据和结束指令; 当获取到多无人机协同对抗数据时, 将所述多无人机协同对抗数据作为下一 回合的无 人机初始状态数据, 并对无 人机初始状态数据进行 数据补全处 理; 当获取到结束指令时, 计算所有回合的奖励回报。 5.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 所述对预 设格式的无 人机初始状态数据进行 数据补全处 理, 包括: 检测多架无人机 中是否存在损毁情况; 若是, 则对损毁的无人机进行数据补零处理, 若 否, 则不进行处 理; 所述对数据补全后的无 人机初始状态数据进行 数据转换, 包括: 将数据补全后的无人机初始状态数据的字符串格式转换成矩阵格式, 以使数据 可以作 为神经网络的输入。 6.如权利要求1所述的多无人机协同对抗决策的强化学习方法, 其特征在于, 基于预设 的Actor‑Critic算法对所述无 人机状态数据进行处 理, 包括:权 利 要 求 书 2/3 页 3 CN 113128698 B 3

.PDF文档 专利 多无人机协同对抗决策的强化学习方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多无人机协同对抗决策的强化学习方法 第 1 页 专利 多无人机协同对抗决策的强化学习方法 第 2 页 专利 多无人机协同对抗决策的强化学习方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:23:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。