专利基于马尔可夫决策过程的探测系统博弈波形的设计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111530941.2 (22)申请日 2021.12.15 (71)申请人中国人民解放军空军工程大学地址 710051 陕西省西安市灞桥区长乐东路甲字一号 (72)发明人李伟　郑泽新　 (74)专利代理机构西安渭之蓝知识产权代理有限公司 61282 专利代理师刘振 (51)Int.Cl. G06F 30/20(2020.01) G06F 17/11(2006.01) G06F 17/15(2006.01) (54)发明名称基于马尔可夫决策过程的探测系统博弈波形的设计方法 (57)摘要本发明为一种基于马尔可夫决策过程的探测系统博弈波形设计方法。基于马尔可夫决策过程进行探测系统与干扰间的博弈过程建模，通过最大化动作价值函数计算得出探测系统最优波形策略，实现博弈条件下的认知探测系统波形设计，并进行了仿真验证。具体实施验证，本发明用于对空探测系统与干扰间博弈波形设计，得到发射波形最优频域能量分配策略，并使用相位迭代法产生相应的恒模时域信号；与线性调频信号、跳频信号相比，该发明方法产生的最优波形策略信干噪比分别提高了2 3dB和13dB，显著提高了目标探测性能。权利要求书1页说明书8页附图5页 CN 115238439 A 2022.10.25 CN 115238439 A 1.基于马尔可夫决策过程的探测系统博弈波形的设计方法，其特征在于，包括以下步骤： S1.通过初步探测，确定环境信息； S2.根据步骤S1中设定的环境信息和探测系统波形变化能力设置马尔可夫决策过程中的状态集S、动作集A、状态转移概率P和折扣因子γ； S3.依据探测系统具体功能设计马尔可夫决策过程的奖励函数R，利用贝尔曼最优方程计算探测系统最优波形策略。 2.如权利要求1所述的设计方法，其特征在于：所述步骤S1包括如下步骤： (1)通过探测系统发射常规信号对目标进行探测，分析目标回波初步得到目标冲激响应； (2)接收干扰信号，获取干扰的空间特征、时域特征、频域特征和极化特征； (3)接收杂波信号，通过分析杂波信号的空间特征、时域特征、频域特征和极化特征，得到无关目标的背景响应。 3.如权利要求1所述的设计方法，其特征在于：所述步骤S2包括如下步骤： (1)根据环境信息和探测系统发射信号确定状态集S，状态集S :{干扰、杂波、噪声等}； (2)干扰条件下，探测系统作为智能体，设置动作集:{可能的所有探测发射波形}； (3)依据探测系统实际工作模式和工作经验，设置探测波形状态转移概率，可等概率设置，也可依据所实现的具体功能有侧重的设置；如更倾向于实现抗干扰能力时，探测波形状态变化为可躲避干扰的波形状态的概率应更大；如更倾向于实现目标探测功能时，探测波形状态应大概率选择与目标冲激响应更为匹配的波形状态； (4)从探测系统实际场景出发，根据探测波形 “目光远近 ”程度，设置折扣因子γ：若探测系统只需最大化当前收益，则γ＝0；若探测系统更多考虑未来收益，则γ＝1；若探测系统综合考虑当前和未来收益，得到未来一定时间的最优决策，则视情况设定γ∈[0,1]。 4.如权利要求1所述的设计方法，其特征在于：所述步骤S3包括如下步骤： (1)针对探测系统期望达到的目标，设置马尔可夫决策过程的奖励函数，奖励函数包含单一或多个变量，或者是多个因素联合影响奖励函数，通过设置一定权重系数，有目的的实现具有综合性能的奖励函数； (2)通过步骤(1)的奖励函数R计算得到最优状态价值函数v*和最优动作价值函数 q*，利用贝尔曼最优方程得到最优探测波形策略。权　利　要　求　书 1/1 页 2 CN 115238439 A 2基于马尔可夫决策过程的探测系统博弈波形的设计方法所属技术领域 [0001]本发明属于信号与信息处理和电子战领域，涉及一种可用于不同环境下探测系统波形和干扰波形的设计方法。现有技术 [0002]电磁环境日益复杂，被探测目标已逐渐具备灵活的干扰能力，现有探测系统接收机端仅采取传统信号处理方法抑制干扰，或在一定范围内调整发射信号参数，这些手段难以满足探测系统搜索、定位、跟踪、识别和成像等任务需求。 [0003]为从信号域解决探测系统对环境适应性不足的问题，国防科技大学黎湘等，针对认知多输入多输出雷达系统,提出一种基于序贯假设检验的扩展目标分类波形自适应方法，明显降低了目标分类的平均观测次数。 [0004]见文献：认知MIMO雷达目标分类波形自适应方法[J].现代雷达,2014,36(10):1 ‑ 6.DOI:10.16592 /j.cnki.1004 ‑7859.2014.10.004。闫东等针对认知雷达在杂波环境下探测扩展目标回波信号杂波噪声比较低的问题,提出一种认知雷达发射波形优化设计方法，使接收机输出端S CNR接近理想值,提高扩展目标探测性能。但这些成果都没有从雷达与干扰间动态对抗的角度考虑波形设计问题。见文献：基于信号杂波噪声比的认知雷达扩展目标探测波形设计[J].计算机应用,2015,35(07):2105 ‑2108+2112。 Chen Haowen等通过建立合作博弈模型进行目标跟踪的分布式MIMO雷达功率分配，验证均匀功率分配通常不是最优，但没有考虑非合作的对抗博弈场景。见文献： Cooperative Game Approach to Power Allocation for Target Tracking in Distributed MIMO Radar Sensor Networks.IEEE Sensors Journal,vol.15,no.10,pp.5423 ‑5432,Oct.2015, doi: 10.1109/JSEN.2015.24312 61。空军工程大学李伟团队先后基于纳什均衡、 Stackelberg模型和Bayesian博弈模型设计雷达波形，有效提高了雷达检测性能。见文献：博弈条件下雷达波形设计策略研究[J].电子与信息学报,2019,41(11):2654 ‑2660.DOI:10.11999/ JEIT190114。干扰条件下基于Bayesian博弈的认知制导雷达波形设计[J].空军工程大学学报(自然科学版),2021,2 2(02):91 ‑98.DOI:10.3969/j.is sn.1009‑3516.2020.01.0 06。 [0005]但传统博弈方法无法摆脱模型条件约束，如完全信息静态博弈模型为一步博弈，而实际场景中探测系统和干扰为动态、持续的博弈过程；完全信息动态博弈模型虽满足持续博弈的条件，但目的单一，在实际电磁空间中面临信息要素不完全的问题；不完全信息博弈模型可描述现实情况信息的不完备性，但其人为设定信息不完全的方式，难以适应灵活多变的现实工作场景。因此，如何合理构建复杂场景博弈模型成为探测系统波形设计研究急需解决的问题。 [0006]近年来人工智能技术迅速发展，其强大的环境感知、信息获取和最优决策能力为探测系统与干扰间博弈模型研究提供了一种可行路径。王彬等提出一种基于 Q学习的自适应波形选择算法，减少状态估计不确定性，实现接近于最优调度波形的选择，未解决自适应波形设计问题。见文献：认知雷达中基于Q学习的自适应波形选择算法[J].系统工程与说　明　书 1/8 页 3 CN 115238439 A 3

专利 基于马尔可夫决策过程的探测系统博弈波形的设计方法

专利基于马尔可夫决策过程的探测系统博弈波形的设计方法