说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111585624.0 (22)申请日 2021.12.23 (65)同一申请的已公布的文献号 申请公布号 CN 113987963 A (43)申请公布日 2022.01.28 (73)专利权人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 钟都都 庄信武 张伟科 王帅  宋哲 苗夏箐  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 任少瑞 (51)Int.Cl. G06F 30/27(2020.01)G06N 3/00(2006.01) G06N 3/08(2006.01) H04B 17/391(2015.01) G06F 111/06(2020.01) G06F 111/08(2020.01) 审查员 李玉坤 (54)发明名称 一种分布式信道 汇聚策略生成方法及装置 (57)摘要 本发明提供一种分布式信道汇聚策略生成 方法及装置, 方法包括: 构建优化模型并初始化 参数; 基于确定的顺序对各个智能体进行迭代学 习; 基于退火温度和当前状态选取作用于环境的 动作并更新各智 能体的Q值; 根据动作相应的信 道选取策略进行信道盲汇聚之后, 对 所述状态空 间、 所述回报值和所述退火温度进行更新; 当重 复迭代学习的过程直至满足结束条件时, 根据所 有智能体的Q值之和生成最优盲汇聚策略。 本发 明通过将信道盲汇聚过程建模为模仿生物界共 生种群关系, 个体在具有不同功能的搜索算子共 同作用下搜索最有效的生物体, 使种群不断进 化, 逐步向最优解逼近, 从而能够快速生成信道 分配系统的汇聚策略, 进而有效提升无人集群系 统的鲁棒 性和实时性。 权利要求书2页 说明书9页 附图3页 CN 113987963 B 2022.03.22 CN 113987963 B 1.一种分布式信道 汇聚策略生成方法, 其特 征在于, 包括: 构建基于深度强化学习网络的信道汇聚优化模型, 并对所述信道汇聚优化模型的参数 进行初始化; 其中, 所述信道汇聚优化模型的智能体与无人集群系统的用户端一一对应, 所 述用户端的信道占用状态对应于所述信道汇聚优化模型的状态空间, 所述用户端的信道选 取策略对应于所述信道 汇聚优化模型的动作空间; 根据预设的用户端序列确定多智能体优化顺序, 并基于所述多智能体优化顺序对各个 智能体进行迭代学习; 针对每一所述智能体根据当前的退火温度以及当前状态从所述动作空间中选择出作 用于环境的执行动作, 并根据当前 的回报值基于预设的贝尔曼方程对每一智能体对应的Q 值进行更新; 其中, 所述回报值由所述环境 根据当前的信道情况生成; 在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之后, 对所述状态空 间、 所述回报值和所述退火温度进行 更新; 当重复迭代学习的过程直至所述退火温度达到预设的结束温度且累计回报值满足预 设的稳态条件时, 根据所有智能体的Q值之和生成最优盲汇 聚策略; 其中, 所述累计回报为 迭代学习过程中所有回报值之和; 所述回报值的生成方式包括: 计算当前的用户端对应的MOS值, 按预设的回报值奖励函 数对所述M OS值进行转换, 生成得到 当前的智能体的回报值; 其中, 所述M OS值为用户端的平 均意见得分。 2.根据权利要求1所述的分布式信道汇聚策略生成方法, 其特征在于, 所述用户端序列 的确定方式包括: 对所述无人集群系统的所有用户端进行排列 组合, 并将所有排列 组合情 况对应的序列 作为所述用户端序列。 3.根据权利要求1所述的分布式信道汇聚策略生成方法, 其特征在于, 所述按预设的回 报值奖励函数对所述MOS值进行转换, 生成得到当前的智能体的回报值, 还 包括: 当判断所述MOS值低于预设的门限值时, 将预设的负反馈值作为当前的智能体的回报 值。 4.根据权利要求1所述的分布式信道汇聚策略生成方法, 其特征在于, 对所述信道汇聚 优化模型的参数进行初始化, 包括: 对用于汇总所有Q 值的Q矩阵初始化 为全零矩阵; 根据预设的配置信息对所述贝尔曼方程的学习率和折扣因子以及模拟退火算法的初 始温度进行初始化。 5.一种分布式信道 汇聚策略生成装置, 其特 征在于, 包括: 初始化模块, 用于构建基于深度强化学习 网络的信道汇聚优化模型, 并对所述信道汇 聚优化模型 的参数进行初始化; 其中, 所述信道汇 聚优化模型 的智能体与无人集群系统的 用户端一一对应, 所述用户端的信道占用状态对应于所述信道汇 聚优化模型 的状态空间, 所述用户端的信道选取 策略对应于所述信道 汇聚优化模型的动作空间; 顺序确定模块, 用于根据预设的用户端序列确定多智能体优化顺序, 并基于所述多智 能体优化 顺序对各个智能体进行迭代学习; 动作交互模块, 用于针对每一所述智能体根据当前的退火温度以及 当前状态从所述动 作空间中选择出作用于环境的执行动作, 并根据当前的回报值基于预设的贝尔曼方程对每权 利 要 求 书 1/2 页 2 CN 113987963 B 2一智能体对应的Q值进行更新; 其中, 所述回报值由所述环境根据当前的信道情况生成; 所 述动作交互模块具体还用于: 计算当前的用户端对应的M OS值, 按预设的回报值奖励函数对 所述MOS值进行转换, 生 成得到当前的智能体的回报值; 其中, 所述M OS值为用户端的平均意 见得分; 模型更新模块, 用于在根据与所述执行动作相对应的信道选取策略进行信道盲汇聚之 后, 对所述状态空间、 所述回报值和所述退火温度进行 更新; 策略生成模块, 用于当重复迭代学习的过程直至所述退火温度达到预设的结束温度且 累计回报值满足预设的稳态条件时, 根据所有智能体的Q值之和生成最优盲汇聚策略; 其 中, 所述累计回报为迭代学习过程中所有回报值之和。 6.根据权利要求5所述的分布式信道汇聚策略生成装置, 其特征在于, 所述顺序确定模 块具体还用于: 对所述无人集群系统的所有用户端进行排列 组合, 并将所有排列 组合情况 对应的序列 作为所述用户端序列。 7.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至4任一项所 述分布式信道 汇聚策略生成方法的步骤。 8.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处理器执行时实现如权利要求1至4任一项所述分布式信道汇 聚策略生成方法的步 骤。权 利 要 求 书 2/2 页 3 CN 113987963 B 3

.PDF文档 专利 一种分布式信道汇聚策略生成方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种分布式信道汇聚策略生成方法及装置 第 1 页 专利 一种分布式信道汇聚策略生成方法及装置 第 2 页 专利 一种分布式信道汇聚策略生成方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:18:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。