(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110437632.4
(22)申请日 2021.04.2 2
(65)同一申请的已公布的文献号
申请公布号 CN 113128121 A
(43)申请公布日 2021.07.16
(73)专利权人 中国电子科技 集团公司第二十九
研究所
地址 610036 四川省成 都市金牛区营康西
路496号
(72)发明人 余晨 李昊 杨益川
(74)专利代理 机构 成都九鼎天元知识产权代理
有限公司 51214
专利代理师 贾年龙
(51)Int.Cl.
G06F 30/27(2020.01)G06F 17/18(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 严荣
(54)发明名称
基于强化学习与蒙特卡洛搜索树的MIMO雷
达布站方法
(57)摘要
本发明公开了基于强化学习与蒙特卡洛搜
索树的MIMO雷达布站方法, 包括步骤: S1, 对雷达
天线布站区域进行离散化处理, 获得该区域的栅
格模型; S2, 以布站 状态作为输入, 利用深度神经
网络输出相应参数, 辅助蒙特卡洛搜索树进行搜
索更新; S3, 根据蒙特卡洛树的结果更新神经网
络参数, 最后通过训练好的神经网络指导雷达布
站等; 在本发明的实施例中, 使用 深度神经网络
与蒙特卡洛搜索树相结合形成的方法, 实现布站
策略的自主学习, 完成训练学习后能够快速完成
布站。 在高维空间复杂场景中, 能够优化雷达站
点资源, 满足监视任务指标。
权利要求书2页 说明书6页 附图1页
CN 113128121 B
2022.05.31
CN 113128121 B
1.基于强化学习与蒙特卡洛 搜索树的MIMO雷达布 站方法, 其特 征在于, 包括 步骤:
S1, 对雷达天线布站区域进行离散化处理, 获得该区域的栅格模型; 在步骤S1中, 能够
根据栅格模型, 获得当前布 站状态s;
S2, 以布站状态作为输入, 利用深度神经网络输出相应参数, 辅助蒙特卡洛搜索树进行
搜索更新; 在步骤S2中, 深度神经网络以当前布站状态s作为输入, 输出蒙特卡洛搜索树的
节点价值和子节点概率(v,P)=fθ(s), 其中θ表示深度神经网络参数, v表示蒙特卡洛搜索
树节点价值, P表示 蒙特卡洛 搜索树节点 概率; 深度神经网络参数 更新方式如下:
θ =θ‑α·▽J
J=(z‑v)2‑π·logP+α·|| θ||2
其中, z表示完成蒙特卡洛搜索树更新后节点所表示布站方式的监视性能函数, π表示
蒙特卡洛搜索树更新后的节点搜索概率, α 表 示折扣因子, 损失函数J由三个部 分组成, 监视
性能均方误差(z ‑v)2、 节点概率交叉熵 π ·logP和正则化项 || θ||2;
S3, 根据蒙特卡洛树的结果更新神经网络参数, 最后通过训练好的神经网络指导雷达
布站; 在步骤S 3中, 蒙特卡洛搜索树 获得深度神经网络提供的节 点值v和子节 点概率P后, 对
蒙特卡洛搜索树进行搜索; 当搜索到叶节点, 根据监视任务指标F0判断该叶节点的监视性
能函数值v(s), 如下:
其中Mr为随机布站满足监视任务指标的布站数量, m为当前布站数量, 所有监视区域的
性能指标函数 F(s)表示 为:
其中L表示整个监视区域的栅格数, φl(s)表示第l个栅格监视区域的监视性能指标函
数, 与信噪比的关系如下:
其中D0代表满足设计探测性能的探测因子; σi,j是针对第i个发射机和第j个接收机的目
标RCS, σi,i是针对第i个发射机的目标RCS; Rti是从第i个发射机到第k个距离分辨单元的欧
几里得距离; Rrj是从第j个接收机到第k个距离分辨 单元的欧几里得距离; Rmax是雷达的最 大
探测距离 。
2.根据权利要求1所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法, 其特
征在于, 在步骤S3中, 包括如下步骤:
S31, 每次非叶节点模拟布站选择具有最大行动价值Q和上限置信区间U的边
动作价值Q为步骤S3的神经网络输出结果, 上限置信区间U
由所存储的先验概 率P和该边的访问计数N按如下公式确定:权 利 要 求 书 1/2 页
2
CN 113128121 B
2S32, 如果当前状态节点不满足监视任务指标并且没有被扩展过, 无法确定下一步怎么
布站, 则通过深度神经网络(v,P)=fθ(s)来评估状态s, 概率P的值存储在叶子节点扩展的
边上; 根据概 率P新增节点作为当前状态 节点的子节点;
S33, 更新动作价值Q, 即等同于在该行动下的子树中的所有评估值v 的均值; 访问计数
递增N(st,at)=N(st,at)+1, 并且动作价 值更新为平均值,
W(st,at)=W(st,at)+v;
S34, 一旦蒙特卡洛搜索树搜索完成, 返回状态s下的布站概率π(a|s)=N(s,a)1/τ/∑bN
(s,b)1/ τ, 其中τ 是控制温度的参数, 控制布 站随机性;
S35, 重复步骤S31 ‑S34, 直到蒙特卡洛 搜索树满足设定的迭代次数 K;
其中, a为选择需要进行布站的位置, b为当前状态下可选择的所有布站位置, t为第t时
刻, C为上限置信区间U权重值, Q(st,a)为当前状态st选择动作a进行布站的价值, U(st,a)为
当前状态st选择动作a进行布站上限置信区间, st为当前节点布站区域状态, v为蒙 特卡洛搜
索树节点价值, W(st,at)为当前状态st选择动作at进行布站后布站 区域状态价值的加和, N
(st,at)为当前状态st选择动作at进行布站的被访问计数。
3.根据权利要求1~2任一所述的基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方
法, 其特征在于, 包括 步骤:
S4, 经网络损失函数或者训练次数满足要求时, 退 出训练; 否则, 返回步骤S2。权 利 要 求 书 2/2 页
3
CN 113128121 B
3
专利 基于强化学习与蒙特卡洛搜索树的MIMO雷达布站方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:02上传分享