专利基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110437632.4 (22)申请日 2021.04.2 2 (65)同一申请的已公布的文献号申请公布号 CN 113128121 A (43)申请公布日 2021.07.16 (73)专利权人中国电子科技集团公司第二十九研究所地址 610036 四川省成都市金牛区营康西路496号 (72)发明人余晨　李昊　杨益川　 (74)专利代理机构成都九鼎天元知识产权代理有限公司 51214 专利代理师贾年龙 (51)Int.Cl. G06F 30/27(2020.01)G06F 17/18(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员严荣 (54)发明名称基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法 (57)摘要本发明公开了基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，包括步骤： S1，对雷达天线布站区域进行离散化处理，获得该区域的栅格模型； S2，以布站状态作为输入，利用深度神经网络输出相应参数，辅助蒙特卡洛搜索树进行搜索更新； S3，根据蒙特卡洛树的结果更新神经网络参数，最后通过训练好的神经网络指导雷达布站等；在本发明的实施例中，使用深度神经网络与蒙特卡洛搜索树相结合形成的方法，实现布站策略的自主学习，完成训练学习后能够快速完成布站。在高维空间复杂场景中，能够优化雷达站点资源，满足监视任务指标。权利要求书2页说明书6页附图1页 CN 113128121 B 2022.05.31 CN 113128121 B 1.基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，包括步骤： S1，对雷达天线布站区域进行离散化处理，获得该区域的栅格模型；在步骤S1中，能够根据栅格模型，获得当前布站状态s； S2，以布站状态作为输入，利用深度神经网络输出相应参数，辅助蒙特卡洛搜索树进行搜索更新；在步骤S2中，深度神经网络以当前布站状态s作为输入，输出蒙特卡洛搜索树的节点价值和子节点概率(v,P)＝fθ(s)，其中θ表示深度神经网络参数， v表示蒙特卡洛搜索树节点价值， P表示蒙特卡洛搜索树节点概率；深度神经网络参数更新方式如下： θ ＝θ‑α·▽J J＝(z‑v)2‑π·logP+α·|| θ||2 其中， z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数， π表示蒙特卡洛搜索树更新后的节点搜索概率， α 表示折扣因子，损失函数J由三个部分组成，监视性能均方误差(z ‑v)2、节点概率交叉熵 π ·logP和正则化项 || θ||2； S3，根据蒙特卡洛树的结果更新神经网络参数，最后通过训练好的神经网络指导雷达布站；在步骤S 3中，蒙特卡洛搜索树获得深度神经网络提供的节点值v和子节点概率P后，对蒙特卡洛搜索树进行搜索；当搜索到叶节点，根据监视任务指标F0判断该叶节点的监视性能函数值v(s)，如下：其中Mr为随机布站满足监视任务指标的布站数量， m为当前布站数量，所有监视区域的性能指标函数 F(s)表示为：其中L表示整个监视区域的栅格数， φl(s)表示第l个栅格监视区域的监视性能指标函数，与信噪比的关系如下：其中D0代表满足设计探测性能的探测因子； σi,j是针对第i个发射机和第j个接收机的目标RCS， σi,i是针对第i个发射机的目标RCS； Rti是从第i个发射机到第k个距离分辨单元的欧几里得距离； Rrj是从第j个接收机到第k个距离分辨单元的欧几里得距离； Rmax是雷达的最大探测距离。 2.根据权利要求1所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，在步骤S3中，包括如下步骤： S31，每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边动作价值Q为步骤S3的神经网络输出结果，上限置信区间U 由所存储的先验概率P和该边的访问计数N按如下公式确定：权　利　要　求　书 1/2 页 2 CN 113128121 B 2S32，如果当前状态节点不满足监视任务指标并且没有被扩展过，无法确定下一步怎么布站，则通过深度神经网络(v,P)＝fθ(s)来评估状态s，概率P的值存储在叶子节点扩展的边上；根据概率P新增节点作为当前状态节点的子节点； S33，更新动作价值Q，即等同于在该行动下的子树中的所有评估值v 的均值；访问计数递增N(st,at)＝N(st,at)+1，并且动作价值更新为平均值， W(st,at)＝W(st,at)+v； S34，一旦蒙特卡洛搜索树搜索完成，返回状态s下的布站概率π(a|s)＝N(s,a)1/τ/∑bN (s,b)1/ τ，其中τ 是控制温度的参数，控制布站随机性； S35，重复步骤S31 ‑S34，直到蒙特卡洛搜索树满足设定的迭代次数 K；其中， a为选择需要进行布站的位置， b为当前状态下可选择的所有布站位置， t为第t时刻， C为上限置信区间U权重值， Q(st,a)为当前状态st选择动作a进行布站的价值， U(st,a)为当前状态st选择动作a进行布站上限置信区间， st为当前节点布站区域状态， v为蒙特卡洛搜索树节点价值， W(st,at)为当前状态st选择动作at进行布站后布站区域状态价值的加和， N (st,at)为当前状态st选择动作at进行布站的被访问计数。 3.根据权利要求1～2任一所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法，其特征在于，包括步骤： S4，经网络损失函数或者训练次数满足要求时，退出训练；否则，返回步骤S2。权　利　要　求　书 2/2 页 3 CN 113128121 B 3

专利 基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法

专利基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法