专利基于深度强化学习的基站缓存替换方法、系统及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110360611.7 (22)申请日 2021.04.02 (65)同一申请的已公布的文献号申请公布号 CN 113115368 A (43)申请公布日 2021.07.13 (73)专利权人南京邮电大学地址 210003 江苏省南京市鼓楼区新模范马路66号 (72)发明人朱琦　赵旭　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师邵斌 (51)Int.Cl. H04W 28/14(2009.01) H04W 28/20(2009.01)H04W 28/22(2009.01) G06F 30/27(2020.01) G06N 3/08(2006.01) H04L 67/06(2022.01) H04L 67/12(2022.01) 审查员王姣 (54)发明名称基于深度强化学习的基站缓存替换方法、系统及存储介质 (57)摘要本发明公开了物联网通信领域的一种基于深度强化学习的基站缓存替换方法、系统及存储介质，针对物联网的边缘缓存场景，引入物联网数据的新鲜度属性。定义了获取物联网数据时的时延成本以及新鲜度损失成本，并基于权衡传输时延以及数据新鲜度的方法定义了效用函数，同时以最小化用户的总效用为目标建立了优化问题。将缓存替换问题建模为MDP问题，通过将网络状态、数据请求状态以及网络上下文信息作为系统状态，将缓存替换方法作为动作进行抉择，以获取数据时的总成本来设计奖赏函数，并通过状态转移概率函数来确定下一个决策时期的状态。最后，采用A 3C方法来对缓存替换方法进行优化，以实现传输时延和新鲜度之间的均衡，并获得更多的缓存命中。权利要求书3页说明书12页附图5页 CN 113115368 B 2022.08.05 CN 113115368 B 1.一种基于深度强化学习的基站缓存替换方法，其特征是，包括：基于获取文件的传输时延和获取文件的新鲜度损失成本，确定获取文件的总成本；基于获取文件的总成本，构建物联网场景下基于MDP的缓存替换模型；基于A3C深度强化学习求解物联网场景下基于MDP的缓存替换模型，以实现获取文件的传输时延和获取文件的新鲜度损失成本之间的均衡；所述获取文件的传输时延，具体为：其中， σu,f(t)表示用户u在 t时刻获取文件f的传输时延， yf表示文件是否从缓存中获取，若基站缓存有文件f且该文件未过期，则yf＝1，否则yf＝0；表示当文件f缓存在基站的高速缓存设备中且未过期时，用户直接通过回程链路从缓存中获取文件的传输时延；当基站未缓存请求文件或者请求文件过期时，基站从物联网数据源获取请求文件的传输时延； vf表示请求文件f的大小； Rb,u(t)表示基站到用户u的无线传输速率； Bu表示每个用户被分配的信道带宽；所述获取文件的新鲜度损失成本，具体为：其中， Lu,f(t)表示t时刻用户u获取文件f的新鲜度损失成本，表示已缓存文件f的年龄，表示文件f的生存周期；所述获取文件的总成本，具体为： Cu,f(t)＝α·σu,f(t)+(1‑α )·Lu,f(t) (7) 其中， Cu,f(t)表示t时刻用户u获取文件f的总成本， α表示衡量时延成本重要性的相对权重系数；所述基于获取文件的总成本，构建物联网场景下基于MDP的缓存替换模型，具体为：定义t时刻的状态空间st＝{C(t),L(t),B(t)}，其中， C(t)表示t时刻的网络状态， L(t) 表示t时刻的数据请求状态， B(t)表示网络上下文信息；定义动作空间为A＝{a0,a1,...,aV}，当t时刻的动作at＝a0时，这表明不缓存当前请求文件，基站的缓存状态保持不变；当at＝av(1≤v≤V)时，这表明会将高速缓存中的第v个文件替换掉，且缓存当前请求文件；定义P(st+1|st,at)表示将时间点t的状态和动作映射到时间点t+1的状态分布的上的转移概率，其仅取决于判定时间点t、观察到的状态st和所选择的动作at，而不取决于该过程的历史； t时刻采取行动at后所获得的即时奖励R(st,at)定义为： R(st,at)＝‑Cu,f(t) (12) 即以降低所有用户获取文件时的总成本为优化目标。 2.根据权利要求1所述的基于深度强化学习的基站缓存替换方法，其特征是，在所述物权　利　要　求　书 1/3 页 2 CN 113115368 B 2联网场景下基于MDP的缓存替换模型中，基站在t时刻的处理过程包括： a1、在t时刻的开始，基站观察系统并获得其当前状态st∈S， S表示状态空间； a2、基站在观测到当前状态st后根据策略π 执行动作at； a3、采取行动at后，物联网系统根据动态环境中的R(st,at)和P(st+1|st,at)，获取累积奖励Rt，并向新状态st+1进行转变； a4、将累积奖励反馈给基站，然后进入下一个时隙t+1，并重复该过程。 3.根据权利要求1所述的基于深度强化学习的基站缓存替换方法，其特征是，所述基于 A3C深度强化学习求解物联网场景下基于MDP的缓存替换模型，以实现获取文件的传输时延和获取文件的新鲜度损失成本之间的均衡，包括： b1、定义移动用户集合{U}＝{1,...,u,...,U}，文件集合{F}＝{1,...,f,...,F}，用户的总数为U，文件的总数为F；全局网络中Actor网络和 Critic网络的参数分别为θ0和每个智能体的Actor 网络和Critic网络的参数分别为θm和最大步数为tmax；文件缓存集合为W，初始化为φ； b2、初始化网络参数的梯度更新量： dθ0＝0, 同时用全局共享参数初始化每个线程的网络参数： θm＝θ0, b3、令tstart＝t，并获取当前系统状态空间st＝{C(t),L(t),B(t)}：其中， C(t)＝{Pb,u(t),Gb,u(t)} 网络状态C(t)包含用户u接入基站信道后的无线发射功率Pb,u(t)以及无线信道增益 Gb,u(t)；数据请求状态L(t)中的表示在t时刻收到第n个用户请求时基站获得的请求文件集合， n∈{1,2,. ..,N}；网络上下文信息B(t)包含t时刻文件f的生命周期和文件年龄 f∈{1, 2,...,F}； b4、每个智能体将st输入到Actor网络和Critic网络中； b5、 Actor网络输出此时的策略πθ(at,st)，该策略是执行不同动作的概率分布向量， πθ (at,st)表示执行动作a的概率； b6、按照策略πθ(at,st)选取一个动作概率最大的动作at，计算即时奖励R(st,at)＝‑Cu,f (t)，并转移到的下一个状态st+1； b7、令t＝t+1，若st是终止状态或者t ‑tstart＝tmax，则执行步骤b8；否则执行步骤b4： b8、用Critic网络计算状态空间为st时的状态值函数定义如下： Rt表示截止t时刻的累积奖励：权　利　要　求　书 2/3 页 3 CN 113115368 B 3

专利 基于深度强化学习的基站缓存替换方法、系统及存储介质

专利基于深度强化学习的基站缓存替换方法、系统及存储介质