说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111530941.2 (22)申请日 2021.12.15 (71)申请人 中国人民解 放军空军工程大 学 地址 710051 陕西省西安市灞桥区长乐 东 路甲字一 号 (72)发明人 李伟 郑泽新  (74)专利代理 机构 西安渭之蓝知识产权代理有 限公司 61282 专利代理师 刘振 (51)Int.Cl. G06F 30/20(2020.01) G06F 17/11(2006.01) G06F 17/15(2006.01) (54)发明名称 基于马尔可夫决策过程的探测系统博弈波 形的设计方法 (57)摘要 本发明为一种基于马尔可夫决策过程的探 测系统博弈波形设计方法。 基于马尔可夫决策过 程进行探测系统与干扰间的博弈过程建模, 通过 最大化动作价值函数计算得出探测系统最优波 形策略, 实现博弈条件下的认知探测系统波形设 计, 并进行了仿真验证。 具体实施验证, 本发明用 于对空探测系统与干扰间博弈波形设计, 得到发 射波形最优 频域能量分配策略, 并使用相位迭代 法产生相应的恒模时域信号; 与线性调频信号、 跳频信号相比, 该发明方法产生的最优波形策略 信干噪比分别提高了2 3dB和13dB, 显著提高了目 标探测性能。 权利要求书1页 说明书8页 附图5页 CN 115238439 A 2022.10.25 CN 115238439 A 1.基于马尔可夫决策过程的探测系统博弈波形的设计方法, 其特征在于, 包括以下步 骤: S1.通过初步探测, 确定环境信息; S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中 的状态集S、 动作集A、 状态转移概 率P和折扣因子γ; S3.依据探测系统具体功能设计马尔可夫 决策过程的奖励函数R, 利用贝尔曼最优方程 计算探测系统最优波形 策略。 2.如权利要求1所述的设计方法, 其特 征在于: 所述步骤S1包括如下步骤: (1)通过探测系统发射常规信号对目标进行探测, 分析目标回波初步得到目标冲激响 应; (2)接收干扰信号, 获取干扰的空间特 征、 时域特 征、 频域特 征和极化特 征; (3)接收杂波信号, 通过分析杂 波信号的空间特征、 时域特征、 频域特征和极化特征, 得 到无关目标的背景响应。 3.如权利要求1所述的设计方法, 其特 征在于: 所述步骤S2包括如下步骤: (1)根据环境信息和探测系统发射信号确定状态集S, 状态集S :{干扰、 杂波、 噪声等}; (2)干扰条件下, 探测系统作为智能体, 设置动作集:{可能的所有探测发射波形}; (3)依据探测系统实际工作模式和工作经验, 设置探测波形状态转移概率, 可等概率设 置, 也可依据所实现的具体功能有侧重的设置; 如更倾向于实现抗干扰能力时, 探测波形状 态变化为可躲避干扰的波形状态的概率应更大; 如更倾向于实现目标探测功 能时, 探测波 形状态应大概 率选择与目标冲激响应更为匹配的波形状态; (4)从探测系 统实际场景出发, 根据探测波形 “目光远近 ”程度, 设置折扣因子γ: 若探 测系统只需最大化当前收益, 则γ=0; 若探测系统更多考虑未来收益, 则γ=1; 若探测系 统综合考虑当前和未来收益, 得到未来 一定时间的最优决策, 则视情况设定γ∈[0,1]。 4.如权利要求1所述的设计方法, 其特 征在于: 所述步骤S3包括如下步骤: (1)针对探测系统期望达到的目标, 设置马尔可夫 决策过程的奖励函数, 奖励函数包含 单一或多个变量, 或者是多个因素联合影响奖励函数, 通过设置一定权重系数, 有目的的实 现具有综合 性能的奖励函数; (2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v*和最优动作价值函数 q*, 利 用贝尔曼最优方程得到最优探测波形 策略。权 利 要 求 书 1/1 页 2 CN 115238439 A 2基于马尔可 夫决策过 程的探测系统博弈波 形的设计方 法 所属技术领域 [0001]本发明属于信号与信息处理和电子战领域, 涉及一种可用于不 同环境下探测  系 统波形和干扰波形的设计方法。 现有技术 [0002]电磁环境日益复杂, 被探测目标已逐渐具备灵活的干扰能力, 现有探测系统  接收 机端仅采 取传统信号处理方法抑制干扰, 或在一定范围内调整发射信号参  数, 这些手段难 以满足探测系统搜索、 定位、 跟踪、 识别和成像等任务需求。 [0003]为从信号域解决探测系统对环境适应性不足的问题, 国防科技大学黎湘等,  针对 认知多输入多输出雷达系统,提出一种基于序贯假设检验的扩展目标分类波  形自适应方 法, 明显降低了目标分类的平均观测次数。 [0004]见文献: 认知MIMO雷达目标分类波形自适应方法[J].现代雷  达,2014,36(10):1 ‑ 6.DOI:10.16592 /j.cnki.1004 ‑7859.2014.10.004。 闫东等针  对认知雷达在杂波环境下探 测扩展目标回波信号杂波噪声比较低的问题,提出一  种认知雷达发射波 形优化设计方法, 使接收机输出端S CNR接近理想值,提高扩展  目标探测性能。 但 这些成果 都没有从雷达与干 扰间动态对抗的角度考虑 波形设计  问题。 见文献: 基于信号杂波噪声比的认知雷达扩展目 标探测波形设计[J].计算  机应用,2015,35(07):2105 ‑2108+2112。 Chen  Haowen等通过建 立合作博弈模型  进行目标跟踪的分布式MIMO雷达功率分配, 验证均匀功率分配通常不是 最优, 但没有考虑非合作的对抗博弈场景。 见文献: Cooperative  Game Approach  to Power Allocation  for Target Tracking  in Distributed  MIMO Radar Sensor Networks.IEEE  Sensors Journal,vol.15,no.10,pp.5423 ‑5432,Oct.2015,  doi: 10.1109/JSEN.2015.24312 61。 空军工程大学李伟团队先后基于纳什均衡、  Stackelberg模 型和Bayesian博弈模型设计雷达波形, 有效提高了雷达检测性  能。 见文献: 博弈条件下雷 达波形设计策略研究[J].电子与信息学  报,2019,41(11):2654 ‑2660.DOI:10.11999/ JEIT190114。 干扰条件下基于Bayesian博弈的认知制导雷达波形设计[J].空军工程大学学 报(自然科 学 版),2021,2 2(02):91 ‑98.DOI:10.3969/j.is sn.1009‑3516.2020.01.0 06。 [0005]但传统博弈方法无法摆脱模型条件约束, 如完全信息静态博弈模型为一步博  弈, 而实际场景中探测系统和干扰为动态、 持续的博弈过程; 完全信息动态博弈  模型虽满足持 续博弈的条件, 但目的单一, 在实际电磁空间中面临信息要素不完  全的问题; 不完全信息 博弈模型可描述现实情况信息的不完备性, 但其人为设定  信息不完全的方式, 难以适应灵 活多变的现实工作场景。 因此, 如何合理构建 复 杂场景博弈模型成为探测系统波 形设计研 究急需解决的问题。 [0006]近年来人工智能技术迅速发展, 其强大的环境感知、 信息 获取和最优决策能  力为 探测系统与干扰间博弈模型研究提供了一种可行路径。 王彬等提出一种基于  Q学习的自适 应波形选择算法, 减少状态估计不确定性, 实现接近于最优调度波  形的选择, 未解决自适 应波形设计问题。 见文献: 认知雷达中基于Q学习的自适  应波形选择算法[J].系统工程与说 明 书 1/8 页 3 CN 115238439 A 3

.PDF文档 专利 基于马尔可夫决策过程的探测系统博弈波形的设计方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于马尔可夫决策过程的探测系统博弈波形的设计方法 第 1 页 专利 基于马尔可夫决策过程的探测系统博弈波形的设计方法 第 2 页 专利 基于马尔可夫决策过程的探测系统博弈波形的设计方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:55:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。