(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202110360611.7
(22)申请日 2021.04.02
(65)同一申请的已公布的文献号
申请公布号 CN 113115368 A
(43)申请公布日 2021.07.13
(73)专利权人 南京邮电大 学
地址 210003 江苏省南京市 鼓楼区新模范
马路66号
(72)发明人 朱琦 赵旭
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 邵斌
(51)Int.Cl.
H04W 28/14(2009.01)
H04W 28/20(2009.01)H04W 28/22(2009.01)
G06F 30/27(2020.01)
G06N 3/08(2006.01)
H04L 67/06(2022.01)
H04L 67/12(2022.01)
审查员 王姣
(54)发明名称
基于深度强化学习的基站缓存替换方法、 系
统及存储介质
(57)摘要
本发明公开了物联网通信领域的一种基于
深度强化学习的基站缓存替换方法、 系统及存储
介质, 针对物联网的边缘缓存场景, 引入物联网
数据的新鲜度属性。 定义了获取物联网数据时的
时延成本以及新鲜度损失成本, 并基于权衡传输
时延以及数据新鲜度的方法定义了效用函数, 同
时以最小化用户的总效用为目标建立了优化问
题。 将缓存替换问题建模为MDP问题, 通过将网络
状态、 数据请求状态以及网络上下文信息作为系
统状态, 将缓存替换方法作为动作进行抉择, 以
获取数据时的总成本来设计奖赏函数, 并通过状
态转移概率函数来确定下一个决策时期的状态。
最后, 采用A 3C方法来对缓存替换方法进行优化,
以实现传输时延和新鲜度之间的均衡, 并获得更
多的缓存 命中。
权利要求书3页 说明书12页 附图5页
CN 113115368 B
2022.08.05
CN 113115368 B
1.一种基于深度强化学习的基站缓存替换 方法, 其特 征是, 包括:
基于获取文件的传输时延和获取文件的新鲜度损失成本, 确定获取文件的总成本;
基于获取文件的总成本, 构建物联网场景 下基于MDP的缓存替换模型;
基于A3C深度强化学习求解物联网场景下基于MDP的缓存替换模型, 以实现获取文件的
传输时延和获取文件的新鲜度损失成本之间的均衡;
所述获取文件的传输时延, 具体为:
其中, σu,f(t)表示用户u在 t时刻获取文件f的传输时延, yf表示文件是否从缓存中获取,
若基站缓存有文件f且该文件未过期, 则yf=1, 否则yf=0;
表示当文件f缓存在基站
的高速缓存设备中且未过期时, 用户 直接通过回程链路从缓存中获取文件的传输时延;
当基站未缓存请 求文件或者请 求文件过期时, 基站从物联网数据 源获取请 求文件的
传输时延; vf表示请求文件f的大小; Rb,u(t)表示基站到用户u的无线传输速率; Bu表示每个
用户被分配的信道带宽;
所述获取文件的新鲜度损失成本, 具体为:
其中, Lu,f(t)表示t时刻用户u获取文件f的新鲜度损失成本,
表示已缓存文件f的年
龄,
表示文件f的生存周期;
所述获取文件的总成本, 具体为:
Cu,f(t)=α·σu,f(t)+(1‑α )·Lu,f(t) (7)
其中, Cu,f(t)表示t时刻用户u获取文件f的总成本, α表示衡量时延成本重要性的相对
权重系数;
所述基于获取文件的总成本, 构建物联网场景 下基于MDP的缓存替换模型, 具体为:
定义t时刻的状态空间st={C(t),L(t),B(t)}, 其中, C(t)表示t时刻的网络状态, L(t)
表示t时刻的数据请求状态, B(t)表示网络上 下文信息;
定义动作空间为A={a0,a1,...,aV}, 当t时刻的动作at=a0时, 这表明不缓存当前请求
文件, 基站的缓存状态保持不变; 当at=av(1≤v≤V)时, 这表明会将高速缓存中的第v个文
件替换掉, 且缓存当前请求文件;
定义P(st+1|st,at)表示将时间点t的状态和动作映射到时间点t+1的状态分布的上的转
移概率, 其仅取决于判定时间点t、 观察到的状态st和所选择的动 作at, 而不取决于该过程的
历史;
t时刻采取 行动at后所获得的即时奖励R(st,at)定义为:
R(st,at)=‑Cu,f(t) (12)
即以降低所有用户获取文件时的总成本为优化目标。
2.根据权利要求1所述的基于深度强化学习的基站缓存替换方法, 其特征是, 在所述物权 利 要 求 书 1/3 页
2
CN 113115368 B
2联网场景 下基于MDP的缓存替换模型中, 基站在t时刻的处 理过程包括:
a1、 在t时刻的开始, 基站 观察系统并获得其当前状态st∈S, S表示状态空间;
a2、 基站在观测到当前状态st后根据策略π 执 行动作at;
a3、 采取行动at后, 物联网系统根据动态环境中的R(st,at)和P(st+1|st,at), 获取累积奖
励Rt, 并向新状态st+1进行转变;
a4、 将累积奖励反馈给基站, 然后进入下一个时隙t+1, 并重复该 过程。
3.根据权利要求1所述的基于深度强化学习的基站缓存替换方法, 其特征是, 所述基于
A3C深度强化学习求解物联网场景下基于MDP的缓存替换模型, 以实现获取文件的传输时延
和获取文件的新鲜度损失成本之间的均衡, 包括:
b1、 定义移动用户集合{U}={1,...,u,...,U}, 文件集合{F}={1,...,f,...,F}, 用户
的总数为U, 文件的总数为F; 全局网络中Actor网络和 Critic网络的参数分别为θ0和
每
个智能体的Actor 网络和Critic网络的参数分别 为θm和
最大步数为tmax; 文件缓存集合
为W, 初始化 为φ;
b2、 初始化网络参数的梯度更新量: dθ0=0,
同时用全局共享参数初始化每个
线程的网络参数: θm=θ0,
b3、 令tstart=t, 并获取当前系统状态空间st={C(t),L(t),B(t)}:
其中, C(t)={Pb,u(t),Gb,u(t)}
网络状态C(t)包含用户u接入基站信道后的无线发射功率Pb,u(t)以及无线信道增益
Gb,u(t);
数据请求状态L(t)中的
表示在t时刻收到第n个用户请求时基站获得的请求文件集
合, n∈{1,2,. ..,N};
网络上下文信息B(t)包含t时刻文件f的生命周期
和文件年龄
f∈{1,
2,...,F};
b4、 每个智能体将st输入到Actor网络和Critic网络中;
b5、 Actor网络输出此时的策略πθ(at,st), 该策略是执行不同动作的概率分布向量, πθ
(at,st)表示执行动作a的概 率;
b6、 按照策略πθ(at,st)选取一个动作概率最大的动作at, 计算即时奖励R(st,at)=‑Cu,f
(t), 并转移到的下一个 状态st+1;
b7、 令t=t+1, 若st是终止状态或者t ‑tstart=tmax, 则执行步骤b8; 否则执 行步骤b4:
b8、 用Critic网络计算状态空间为st时的状态值 函数
定义如下:
Rt表示截止t时刻的累积奖励:
权 利 要 求 书 2/3 页
3
CN 113115368 B
3
专利 基于深度强化学习的基站缓存替换方法、系统及存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:23:20上传分享