专利强化学习下的无人机集群雷达通信一体化资源分配方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110492856.5 (22)申请日 2021.05.07 (65)同一申请的已公布的文献号申请公布号 CN 113207128 A (43)申请公布日 2021.08.0 3 (73)专利权人东南大学地址 211102 江苏省南京市江宁区东南大学路2号 (72)发明人陈鹏　汪敏　杨子晗　 (74)专利代理机构南京瑞弘专利商标事务所 (普通合伙) 32249 专利代理师孙建朋 (51)Int.Cl. H04W 16/10(2009.01) H04W 16/22(2009.01)H04W 16/28(2009.01) G06F 30/15(2020.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04B 7/185(2006.01) (56)对比文件 CN 111132335 A,2020.0 5.08 审查员张小倩 (54)发明名称强化学习下的无人机集群雷达通信一体化资源分配方法 (57)摘要本发明公开了一种强化学习下的无人机集群雷达通信一体化资源分配方法。涉及的资源主要包括波束、频谱、功率等资源。所述内容包括以下步骤：对无人机集群雷达通信系统进行搭建，分为无人机集群和探测目标群体；构建总性能表征指标，总性能表征指标分别由通信和雷达表征指标按比重合成，通信表征指标是通信率，雷达表征指标是互信息；构建强化学习和深度强化学习；构建相应强化学习和深度强化学习算法；对单个资源进行有效分配，对双资源进行有效分配，对多资源进行有效的分配。本发明提供的方法，能更有效的对无人机集群雷达通信一体化系统进行合理的资源分配，提高资源利用率。权利要求书2页说明书12页附图9页 CN 113207128 B 2022.12.06 CN 113207128 B 1.一种强化学习下的无人机集群雷达通信一体化资源分配方法，其特征在于，包括以下步骤：步骤1、对无人机集群雷达通信系统进行搭建，包括在无人机集群内部进行通信交流和对目标群体进行探测；步骤2、构建总性能表征指标，总性能表征指标由通信表征指标和雷达表征指标按比重合成，通信表征指标是通信率，雷达表征指标是互信息；步骤3、构建强化学习和深度强化学习的环境模型；步骤4、构建相应强化学习和深度强化学习算法；步骤5、实现对单资源、双资源以及多资源的有效分配；步骤2中总性能表征指标Treward的最大值为: m,m'∈(1,2, …N3) n,n'∈(1,2, …N4) l,l'∈(1,2, …N5) 其中， s.t.表示约束条件， λ是通信表征指标所对应的比重， (1 ‑λ )是雷达表征指标所对应的比重， N1是无人机集群的个体数量， N2是探测目标的群体数量， N3是波束的数量， N4是每个波束下所对应的信道数量， N5是可选择的功率数量， m表示无人机集群个体被分配的波束序号， m'表示目标群体的个体被分配的波束序号， (1,2, …N3)表示波束集合，存储的是波束序号； n表示被分配的信道序号， n'表示目标群体的个体被分配的信道序号， (1,2, …N4)表示信道集合，存储的是信道序号； l表示无人机集群的个体被分配的功率等级序号， l'表示目标群体个体被分配的功率等级序号， (1,2, …N5)表示功率集合，存储的是功率等级序号；表示无人机集群中的个体i分配到的在波束m下的信道n,若没有被分到波束，则为0；表示探测目标群体中的个体j分配到的在波束 m下的信道n,若没有被分到波束，则为0；表示指定波束情况下对应信道；表示存放指定功率序号的功率，若没有被分配到功率，则为0；表示无人机集群的个体i的通信率，表示探测目标群体的个体j的互信息；表示无人机集群中的个体i 分配到的l等级功率，表示探测目标群体中的个体j分配到的l'等级功率；步骤2中通信表征指标表示如下：权　利　要　求　书 1/2 页 2 CN 113207128 B 2其中， s.t.表示约束条件， ξcom表示针对无人机集群的个体进行整体归一化，表示无人机集群的个体i的信道损耗，表示无人机集群的个体i'的信道损耗，而个体i'的范围是除了个体i外的所有无人机集群个体，表示探测目标群体的个体j的信道损耗，表示无人机集群的个体i'被分配的l等级功率， γcom表示无人机集群的个体i受到的来自无人机集群其他个体和探测目标群体的干扰， κ 为玻尔兹曼常数， T0为系统噪声温度；步骤2中雷达表征指标具体如下：其中，表示子信道的信道微元, 表示探测目标群体中的个体j分配到的在波束m'下的信道n',若没有被分到波束，则为0； ξradar表示归一化，为第j探测目标的脉冲宽度，表示的傅里叶变换；为探测目标雷达基带信号；表示目标响应的傅里叶变换的方差；表示信道噪声n'(t)的傅里叶变换， γradar为无人机集群共享信息检测目标引起的干扰；步骤3中所述构建强化学习和深度强化学习的环境模型包括状态模型、行为模型和奖励模型；所述状态模型：由无人机集群个体和探测目标群体的个体所分配的资源情况以及分配结束后所产生的总回报值共同组合而成；所述行为模型：根据上一时刻状态模型产生需要的行为模型；行为模型涉及到单波束下单信道分配，单功率分配，多波束下多信道分配，多波束下多信道多功率分配；所述奖励模型：根据所述的总性能表征指标设定奖励模型；步骤3中所述强化学习是SARSA和Q ‑Learning算法；步骤3中所述深度强化学习算法是 DQN和DuelingDQN算法。权　利　要　求　书 2/2 页 3 CN 113207128 B 3

专利 强化学习下的无人机集群雷达通信一体化资源分配方法

专利强化学习下的无人机集群雷达通信一体化资源分配方法