专利一种分布式信道汇聚策略生成方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111585624.0 (22)申请日 2021.12.23 (65)同一申请的已公布的文献号申请公布号 CN 113987963 A (43)申请公布日 2022.01.28 (73)专利权人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人钟都都　庄信武　张伟科　王帅　宋哲　苗夏箐　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人任少瑞 (51)Int.Cl. G06F 30/27(2020.01)G06N 3/00(2006.01) G06N 3/08(2006.01) H04B 17/391(2015.01) G06F 111/06(2020.01) G06F 111/08(2020.01) 审查员李玉坤 (54)发明名称一种分布式信道汇聚策略生成方法及装置 (57)摘要本发明提供一种分布式信道汇聚策略生成方法及装置，方法包括：构建优化模型并初始化参数；基于确定的顺序对各个智能体进行迭代学习；基于退火温度和当前状态选取作用于环境的动作并更新各智能体的Q值；根据动作相应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至满足结束条件时，根据所有智能体的Q值之和生成最优盲汇聚策略。本发明通过将信道盲汇聚过程建模为模仿生物界共生种群关系，个体在具有不同功能的搜索算子共同作用下搜索最有效的生物体，使种群不断进化，逐步向最优解逼近，从而能够快速生成信道分配系统的汇聚策略，进而有效提升无人集群系统的鲁棒性和实时性。权利要求书2页说明书9页附图3页 CN 113987963 B 2022.03.22 CN 113987963 B 1.一种分布式信道汇聚策略生成方法，其特征在于，包括：构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每一智能体对应的Q 值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和；所述回报值的生成方式包括：计算当前的用户端对应的MOS值，按预设的回报值奖励函数对所述M OS值进行转换，生成得到当前的智能体的回报值；其中，所述M OS值为用户端的平均意见得分。 2.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，所述用户端序列的确定方式包括：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。 3.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，所述按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值，还包括：当判断所述MOS值低于预设的门限值时，将预设的负反馈值作为当前的智能体的回报值。 4.根据权利要求1所述的分布式信道汇聚策略生成方法，其特征在于，对所述信道汇聚优化模型的参数进行初始化，包括：对用于汇总所有Q 值的Q矩阵初始化为全零矩阵；根据预设的配置信息对所述贝尔曼方程的学习率和折扣因子以及模拟退火算法的初始温度进行初始化。 5.一种分布式信道汇聚策略生成装置，其特征在于，包括：初始化模块，用于构建基于深度强化学习网络的信道汇聚优化模型，并对所述信道汇聚优化模型的参数进行初始化；其中，所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应，所述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间，所述用户端的信道选取策略对应于所述信道汇聚优化模型的动作空间；顺序确定模块，用于根据预设的用户端序列确定多智能体优化顺序，并基于所述多智能体优化顺序对各个智能体进行迭代学习；动作交互模块，用于针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作用于环境的执行动作，并根据当前的回报值基于预设的贝尔曼方程对每权　利　要　求　书 1/2 页 2 CN 113987963 B 2一智能体对应的Q值进行更新；其中，所述回报值由所述环境根据当前的信道情况生成；所述动作交互模块具体还用于：计算当前的用户端对应的M OS值，按预设的回报值奖励函数对所述MOS值进行转换，生成得到当前的智能体的回报值；其中，所述M OS值为用户端的平均意见得分；模型更新模块，用于在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后，对所述状态空间、所述回报值和所述退火温度进行更新；策略生成模块，用于当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预设的稳态条件时，根据所有智能体的Q值之和生成最优盲汇聚策略；其中，所述累计回报为迭代学习过程中所有回报值之和。 6.根据权利要求5所述的分布式信道汇聚策略生成装置，其特征在于，所述顺序确定模块具体还用于：对所述无人集群系统的所有用户端进行排列组合，并将所有排列组合情况对应的序列作为所述用户端序列。 7.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述分布式信道汇聚策略生成方法的步骤。 8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述分布式信道汇聚策略生成方法的步骤。权　利　要　求　书 2/2 页 3 CN 113987963 B 3

专利 一种分布式信道汇聚策略生成方法及装置

专利一种分布式信道汇聚策略生成方法及装置