说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110523792.0 (22)申请日 2021.05.13 (65)同一申请的已公布的文献号 申请公布号 CN 113258988 A (43)申请公布日 2021.08.13 (73)专利权人 重庆邮电大 学 地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人 唐伦 李子煜 宋艾遥 孙移星  朱丹青 陈前斌  (74)专利代理 机构 北京同恒源知识产权代理有 限公司 1 1275 专利代理师 赵荣之 (51)Int.Cl. H04B 7/185(2006.01) H04W 72/04(2009.01) G06N 3/08(2006.01) G06F 30/27(2020.01) (56)对比文件 CN 111867104 A,2020.10.3 0CN 112312581 A,2021.02.02 CN 111262619 A,2020.0 6.09 CN 111211831 A,2020.0 5.29 CN 112039580 A,2020.12.04 CN 10896 6352 A,2018.12.07 CN 111970047 A,2020.1 1.20 CN 112749729 A,2021.0 5.04 CN 10974373 5 A,2019.0 5.10 US 20182 25678 A1,2018.08.09 US 2018181971 A1,2018.0 6.28 EP 2555446 A1,2013.02.0 6 Yanmin Wang等.Co ordinated resource allocation for satel lite-terrestrial coexistence based o n radio maps. 《COMMUNICATIONS TE CHNOLOGIES & APPLICATIONS》 .2018,第149-15 6页. 韩永锋.基 于深度强化学习的卫星动态资源 管理研究综述. 《 第十六届卫星通信学术 年会论 文集》 .2020,第32- 39页. 审查员 薛文婷 (54)发明名称 一种基于DQN的多业务低轨卫星资源分配方 法 (57)摘要 本发明涉及一种基于DQN的多业务低轨卫星 资源分配方法, 属于卫星通信领域, 包括以下步 骤: S1: 建立基于低轨卫星多业务的联合功率和 信道分配模型; S2: 将多波束低轨卫星通信系统 资源分配映射为智能体在环境中交互学习获得 最大化长期收益的问题; S3: 通过状态重构及DQN 算法对S2问题进行求解。 本发明可在满足多 业务 用户需求和维持业务队列稳定的条件 下, 提升系 统吞吐量。 权利要求书3页 说明书6页 附图2页 CN 113258988 B 2022.05.20 CN 113258988 B 1.一种基于DQ N的多业务低轨卫星资源分配方法, 其特 征在于: 包括以下步骤: S1: 建立基于低轨卫星 多业务的联合功率和信道分配模型; 所述 步骤S1具体包括: S11: 卫星网络为用户U提供S={s|s=1,2,...,S}种不同的应用服务, 每种服务的优先 级权值设置为 W=[ω1,ω2,...,ωS], 时隙t时波 束n的信道分配 状态表示为 K是波束n中正在服务的呼叫数, 其中, 表 示业务类型, 表示呼叫类型, 为新呼叫, 为切换呼叫, 所有波 束的信道分配 状态构成卫星的信道分配矩阵, 表示 为V(t)={ υ1(t), υ2(t),..., υn(t)}; S12: 对于每 个新呼叫, 其状态 表示为 其中i是当前新呼叫用户数, 表示业务类型, 表示呼叫类 型, 不同时刻下, V(t)会随着用户u (t)的到达或离开而变化, 对应分配或释放相应的资源; S13: 用户与卫星之间的端到端时延满足低轨卫星单波束 的覆盖时间约束, 即业务s的 总平均端到端 时延 和 分别表示业务s 的平均排队时延和下行链路 的传 播时延, T=L/vsat为波束覆盖时长, vsat是低轨卫星运行速度, L为已知的卫星覆盖区域直 径; S14: 队列稳定性是卫星系统为每个业务构建相 应的排队队列Qs(t)满足 时, 队列是稳定的, 其中, Qs(t)表示业务s在时隙t开始 时的卫 星中缓冲区队列长度, E为队列的期望; S2: 将多波束低轨卫星通信系统资源分配映射为智能体在环境中交互学习获得最大化 长期收益的问题; S3: 通过状态重构及DQ N算法对步骤S2中的问题进行求 解。 2.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法, 其特征在于: 所述 步骤S2中具体包括: S21: 状态空间定义为st={V(t),P(t),Qs(t),u(t)}, 其中, V(t)为时隙t卫星的信道分 配信息, P(t)为功率分配信息, Qs(t)为时隙t业务的队列长度, u(t)为时隙t新请求业务的 用户信息; S22: 动作空间定义为at={xnc(t),p(t)}, 其中, xnc(t)表示时隙t波束n中的信道c是否 为用户分配信道, xnc(t)=1即时隙t将波束n中的信道c分配给用户, 反之xnc(t)=0则不分 配, p(t)为用户分配功率的大小; S23: 奖励函数定义为 系统即时奖励是网络中所有新业 务请求用户的即时奖励之和, 等价于 其中, ωS为用户的服务类型为s时的权重值, κ反映用户的优先级, 即切换用户的优先级高于新接入用户, 当新用户请求时, 将奖赏收益权 利 要 求 书 1/3 页 2 CN 113258988 B 2值设置为与传输速率有关的值, 则系统吞吐量表示为 其中, Runc表 示为用户分配的传输速率, Rth为用户正常传输所需的最小传输速率; 当为用户分配的传输 速率低于该用户正常传输所需的最小传输速率Rth时, 表明此次分配策略效果较差, 给予反 馈 反之给予反馈 3.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法, 其特征在于: 步骤 S3中所述的状态重构过程包括: S311: 将与新用户相关的波 束简化为源波束周围一圈的波 束, 被压缩后的波 束为 其中, 表示新请求业务ut的源波束与其周围波 束n之间的偏角, h为卫星高度, θ3dB为3dB波束宽度; S312: 压缩后的功率分配信息和卫星信道分配信息分布 表示为 和 S313: 进一步将压缩后的卫星信道分配信息V*(t)和用户u(t)中的信 息通过one ‑hot编 码进行处 理为 重构后的状态空间为φ(st)={U*(t),P*(t),Qs(t)}。 4.根据权利要求3所述的基于DQN的多业务低轨卫星资源分配方法, 其特征在于: 步骤 S3中所述的DQ N算法求解过程包括: S321: 利用经验回放池和目标Q网络用于Q网络更新; S322: 通过梯度下降方法对Q网络进行反向训练更新, 并采用自适应估计优化器加快收 敛速度。 5.根据权利 要求4所述的基于DQN的多业务低轨卫星资源分配方法, 其特征在于: DQN算 法求解过程具体包括以下步骤: 1)初始化低轨卫星场景相关参数, Q网络、 目标Q网络参数, 权值θ‑=θ, 初始化经验回访 池; 2)获取低轨卫星系统信道分配信息V, 功率分配信息P, 业务队列信息Q和新请求业务用 户的信息u; 3)任意episode, 随机初始化 一个状态S0; 4)利用状态重构对状态进行处 理φ0=φ(s0); 5)任意时间t, 通过 ε ‑greedy策略随机 选择一个概 率p; 6)当p≤ ε, 随机 选择动作at∈a; 否则, 选择动作 7)执行动作at改变环境状态, 得到奖励值rt, 并观察下一个 状态st+1; 8)将st+1处理为φt+1=φ(st+1), 并将<φ(st),at,rt,φ(st+1)>存储到经验回放池中; 9)从经验回放池中随机抽取选取一批样本 <φ(st),at,rt,φ(st+1)>; 10)计算损失函数L oss( θ )=E[(yt)‑Q(φ(st),at; θ )2]; 11)利用Adam算法计算 一阶矩和二阶矩的偏差修 正项; 12)通过神经网络的反向传播 算法, 更新网络的权 重参数θ;权 利 要 求 书 2/3 页 3 CN 113258988 B 3

.PDF文档 专利 一种基于DQN的多业务低轨卫星资源分配方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于DQN的多业务低轨卫星资源分配方法 第 1 页 专利 一种基于DQN的多业务低轨卫星资源分配方法 第 2 页 专利 一种基于DQN的多业务低轨卫星资源分配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:19:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。