专利一种基于DQN的多业务低轨卫星资源分配方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110523792.0 (22)申请日 2021.05.13 (65)同一申请的已公布的文献号申请公布号 CN 113258988 A (43)申请公布日 2021.08.13 (73)专利权人重庆邮电大学地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人唐伦　李子煜　宋艾遥　孙移星　朱丹青　陈前斌　 (74)专利代理机构北京同恒源知识产权代理有限公司 1 1275 专利代理师赵荣之 (51)Int.Cl. H04B 7/185(2006.01) H04W 72/04(2009.01) G06N 3/08(2006.01) G06F 30/27(2020.01) (56)对比文件 CN 111867104 A,2020.10.3 0CN 112312581 A,2021.02.02 CN 111262619 A,2020.0 6.09 CN 111211831 A,2020.0 5.29 CN 112039580 A,2020.12.04 CN 10896 6352 A,2018.12.07 CN 111970047 A,2020.1 1.20 CN 112749729 A,2021.0 5.04 CN 10974373 5 A,2019.0 5.10 US 20182 25678 A1,2018.08.09 US 2018181971 A1,2018.0 6.28 EP 2555446 A1,2013.02.0 6 Yanmin Wang等.Co ordinated resource allocation for satel lite-terrestrial coexistence based o n radio maps. 《COMMUNICATIONS TE CHNOLOGIES & APPLICATIONS》 .2018,第149-15 6页. 韩永锋.基于深度强化学习的卫星动态资源管理研究综述. 《第十六届卫星通信学术年会论文集》 .2020,第32- 39页. 审查员薛文婷 (54)发明名称一种基于DQN的多业务低轨卫星资源分配方法 (57)摘要本发明涉及一种基于DQN的多业务低轨卫星资源分配方法，属于卫星通信领域，包括以下步骤： S1：建立基于低轨卫星多业务的联合功率和信道分配模型； S2：将多波束低轨卫星通信系统资源分配映射为智能体在环境中交互学习获得最大化长期收益的问题； S3：通过状态重构及DQN 算法对S2问题进行求解。本发明可在满足多业务用户需求和维持业务队列稳定的条件下，提升系统吞吐量。权利要求书3页说明书6页附图2页 CN 113258988 B 2022.05.20 CN 113258988 B 1.一种基于DQ N的多业务低轨卫星资源分配方法，其特征在于：包括以下步骤： S1：建立基于低轨卫星多业务的联合功率和信道分配模型；所述步骤S1具体包括： S11：卫星网络为用户U提供S＝{s|s＝1,2,...,S}种不同的应用服务，每种服务的优先级权值设置为 W＝[ω1,ω2,...,ωS]，时隙t时波束n的信道分配状态表示为 K是波束n中正在服务的呼叫数，其中，表示业务类型，表示呼叫类型，为新呼叫，为切换呼叫，所有波束的信道分配状态构成卫星的信道分配矩阵，表示为V(t)＝{ υ1(t), υ2(t),..., υn(t)}； S12：对于每个新呼叫，其状态表示为其中i是当前新呼叫用户数，表示业务类型，表示呼叫类型，不同时刻下， V(t)会随着用户u (t)的到达或离开而变化，对应分配或释放相应的资源； S13：用户与卫星之间的端到端时延满足低轨卫星单波束的覆盖时间约束，即业务s的总平均端到端时延和分别表示业务s 的平均排队时延和下行链路的传播时延， T＝L/vsat为波束覆盖时长， vsat是低轨卫星运行速度， L为已知的卫星覆盖区域直径； S14：队列稳定性是卫星系统为每个业务构建相应的排队队列Qs(t)满足时，队列是稳定的，其中， Qs(t)表示业务s在时隙t开始时的卫星中缓冲区队列长度， E为队列的期望； S2：将多波束低轨卫星通信系统资源分配映射为智能体在环境中交互学习获得最大化长期收益的问题； S3：通过状态重构及DQ N算法对步骤S2中的问题进行求解。 2.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法，其特征在于：所述步骤S2中具体包括： S21：状态空间定义为st＝{V(t),P(t),Qs(t),u(t)}，其中， V(t)为时隙t卫星的信道分配信息， P(t)为功率分配信息， Qs(t)为时隙t业务的队列长度， u(t)为时隙t新请求业务的用户信息； S22：动作空间定义为at＝{xnc(t),p(t)}，其中， xnc(t)表示时隙t波束n中的信道c是否为用户分配信道， xnc(t)＝1即时隙t将波束n中的信道c分配给用户，反之xnc(t)＝0则不分配， p(t)为用户分配功率的大小； S23：奖励函数定义为系统即时奖励是网络中所有新业务请求用户的即时奖励之和，等价于其中， ωS为用户的服务类型为s时的权重值， κ反映用户的优先级，即切换用户的优先级高于新接入用户，当新用户请求时，将奖赏收益权　利　要　求　书 1/3 页 2 CN 113258988 B 2值设置为与传输速率有关的值，则系统吞吐量表示为其中， Runc表示为用户分配的传输速率， Rth为用户正常传输所需的最小传输速率；当为用户分配的传输速率低于该用户正常传输所需的最小传输速率Rth时，表明此次分配策略效果较差，给予反馈反之给予反馈 3.根据权利要求1所述的基于DQN的多业务低轨卫星资源分配方法，其特征在于：步骤 S3中所述的状态重构过程包括： S311：将与新用户相关的波束简化为源波束周围一圈的波束，被压缩后的波束为其中，表示新请求业务ut的源波束与其周围波束n之间的偏角， h为卫星高度， θ3dB为3dB波束宽度； S312：压缩后的功率分配信息和卫星信道分配信息分布表示为和 S313：进一步将压缩后的卫星信道分配信息V*(t)和用户u(t)中的信息通过one ‑hot编码进行处理为重构后的状态空间为φ(st)＝{U*(t),P*(t),Qs(t)}。 4.根据权利要求3所述的基于DQN的多业务低轨卫星资源分配方法，其特征在于：步骤 S3中所述的DQ N算法求解过程包括： S321：利用经验回放池和目标Q网络用于Q网络更新； S322：通过梯度下降方法对Q网络进行反向训练更新，并采用自适应估计优化器加快收敛速度。 5.根据权利要求4所述的基于DQN的多业务低轨卫星资源分配方法，其特征在于： DQN算法求解过程具体包括以下步骤： 1)初始化低轨卫星场景相关参数， Q网络、目标Q网络参数，权值θ‑＝θ，初始化经验回访池； 2)获取低轨卫星系统信道分配信息V，功率分配信息P，业务队列信息Q和新请求业务用户的信息u； 3)任意episode，随机初始化一个状态S0； 4)利用状态重构对状态进行处理φ0＝φ(s0)； 5)任意时间t，通过 ε ‑greedy策略随机选择一个概率p； 6)当p≤ ε，随机选择动作at∈a；否则，选择动作 7)执行动作at改变环境状态，得到奖励值rt，并观察下一个状态st+1； 8)将st+1处理为φt+1＝φ(st+1)，并将<φ(st),at,rt,φ(st+1)>存储到经验回放池中； 9)从经验回放池中随机抽取选取一批样本 <φ(st),at,rt,φ(st+1)>； 10)计算损失函数L oss( θ )＝E[(yt)‑Q(φ(st),at； θ )2]； 11)利用Adam算法计算一阶矩和二阶矩的偏差修正项； 12)通过神经网络的反向传播算法，更新网络的权重参数θ；权　利　要　求　书 2/3 页 3 CN 113258988 B 3

专利 一种基于DQN的多业务低轨卫星资源分配方法

专利一种基于DQN的多业务低轨卫星资源分配方法