(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110492856.5
(22)申请日 2021.05.07
(65)同一申请的已公布的文献号
申请公布号 CN 113207128 A
(43)申请公布日 2021.08.0 3
(73)专利权人 东南大学
地址 211102 江苏省南京市江宁区东 南大
学路2号
(72)发明人 陈鹏 汪敏 杨子晗
(74)专利代理 机构 南京瑞弘专利商标事务所
(普通合伙) 32249
专利代理师 孙建朋
(51)Int.Cl.
H04W 16/10(2009.01)
H04W 16/22(2009.01)H04W 16/28(2009.01)
G06F 30/15(2020.01)
G06F 30/27(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
H04B 7/185(2006.01)
(56)对比文件
CN 111132335 A,2020.0 5.08
审查员 张小倩
(54)发明名称
强化学习下的无人机集群雷达通信一体化
资源分配方法
(57)摘要
本发明公开了一种强化学习下的无人机集
群雷达通信一体化资源分配方法。 涉及的资源主
要包括波束、 频谱、 功率等 资源。 所述内容包括以
下步骤: 对无人机集群雷达通信系统进行搭建,
分为无人机集群和探测目标群体; 构建总性能表
征指标, 总性能表征指标分别由通信和雷达表征
指标按比重合成, 通信表征指标是通信率, 雷达
表征指标是 互信息; 构建强化学习和深度强化学
习; 构建相应强化学习和深度强化学习算法; 对
单个资源进行有效分配, 对双资源进行有效分
配, 对多资源进行有效的分配。 本发明提供的方
法, 能更有效的对无人机集群雷达通信一体化系
统进行合理的资源分配, 提高资源利用率。
权利要求书2页 说明书12页 附图9页
CN 113207128 B
2022.12.06
CN 113207128 B
1.一种强化学习下的无人机集群雷达通信一体化资源分配方法, 其特征在于, 包括以
下步骤:
步骤1、 对无人机集群雷达通信系统进行搭建, 包括在无人机集群 内部进行通信交流和
对目标群 体进行探测;
步骤2、 构建总性能表征指标, 总性能表征指标由通信表征指标和雷达表征指标按比重
合成, 通信表征指标 是通信率, 雷达表征指标 是互信息;
步骤3、 构建强化学习和深度强化学习的环境模型;
步骤4、 构建相应强化学习和深度强化学习算法;
步骤5、 实现对单资源、 双资源以及多资源的有效分配;
步骤2中总性能表征指标Treward的最大值 为:
m,m'∈(1,2, …N3)
n,n'∈(1,2, …N4)
l,l'∈(1,2, …N5)
其中, s.t.表示约束条件, λ是通信表征指标所对应的比重, (1 ‑λ )是雷达表征指标所对
应的比重, N1是无人机集群的个体数量, N2是探测目标的群体数量, N3是波束的数量, N4是每
个波束下所对应的信道数量, N5是可选择的功率数量, m表示无人机集群个体被分配的波束
序号, m'表示目标群体的个体被分配的波束序号, (1,2, …N3)表示波束集合, 存储的是波束
序号; n表示被分配的信道序号, n'表示目标群体的个体被分配的信道序号, (1,2, …N4)表
示信道集合, 存储的是信道序号; l表示无人机集群的个体被分配的功率等级序号, l'表示
目标群体个体被分配的功率等级序号, (1,2, …N5)表示功率集合, 存储的是功率等级序号;
表示无人机集群中的个体i分配到的在波束m下的信道n,若没有被分到波束, 则为0;
表示探测目标群体中的个体j分配到的在波束 m下的信道n,若 没有被分到波束, 则为0;
表示指定波束情况下对应信道;
表示存放指定功
率序号的功率, 若没有被分配到功率, 则为0;
表示无人机集群的个体i的通信
率,
表示探测目标群体的个体j的互信息;
表示无人机集群中的个体i 分配到
的l等级功率,
表示探测目标群 体中的个 体j分配到的l'等级功率;
步骤2中通信表征指标表示如下:
权 利 要 求 书 1/2 页
2
CN 113207128 B
2其中, s.t.表示约束条件, ξcom表示针对无 人机集群的个 体进行整体归一 化,
表示无
人机集群的个体i的信道损耗,
表示无人机集群的个体i'的信道损耗, 而个体i'的范围
是除了个体i外的所有无人机集群个体,
表示探测目标群体的个体j的信道损耗,
表示无人机集群的个体i'被分配的l等级功率, γcom表示无人机集群的个体i受到的来 自无
人机集群其 他个体和探测目标群 体的干扰, κ 为玻尔兹曼常数, T0为系统噪声温度;
步骤2中雷达表征指标 具体如下:
其中,
表示子信道的信道微元,
表示探测目标群体中的个体j分配到的
在波束m'下的信道n',若 没有被分到波束, 则为0; ξradar表示归一化,
为第j探测目标的脉
冲宽度,
表示
的傅里叶变换;
为探测目标雷达基带信号;
表示目标响应的傅里叶变换的方差;
表示信道噪声n'(t)的傅里叶变换, γradar为无
人机集群共享信息检测目标引起的干扰;
步骤3中所述构建强化学习和深度强化学习的环境模型包括状态模型、 行为模型和奖
励模型;
所述状态模型: 由无人机集群个体和探测目标群体的个体所分配的资源情况以及 分配
结束后所产生的总回报值共同组合而成;
所述行为模型: 根据上一时刻状态模型产生需要的行为模型; 行为模型涉及到单波束
下单信道分配, 单功率分配, 多 波束下多信道分配, 多 波束下多信道多功率分配;
所述奖励模型: 根据所述的总性能表征指标设定奖励模型;
步骤3中所述强化学习是SARSA和Q ‑Learning算法; 步骤3中所述深度强化学习算法是
DQN和DuelingDQN算法。权 利 要 求 书 2/2 页
3
CN 113207128 B
3
专利 强化学习下的无人机集群雷达通信一体化资源分配方法
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:45上传分享