说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210937248.5 (22)申请日 2022.08.05 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 陈星 胡晟熙 姚泽玮 林潮伟  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 专利代理师 陈鼎桂 蔡学俊 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度强化学习的实时依赖型任务卸载 方法 (57)摘要 本发明涉及一种基于深度强化学习的实时 依赖型任务卸载方法, 包括以下步骤: 步骤S1:基 于任务卸载的系统模型, 在运行时环境中使用 DQN算法训练卸载操作Q值预测模型; 步骤S2:卸 载操作Q值预测模型, 根据计算节点的计算能力、 计算节点之间的传输速率以及应用的卸载方案, 预测不同卸载操作的Q值, 然后, 通过比较它们对 应的Q值来选择合适的卸载操作; 步骤S3:重复步 骤S2, 通过反馈迭代逐步为每个任务决定 执行位 置。 本发明能够很好地适应不同的云边缘环境, 并高效地 生成卸载 方案。 权利要求书3页 说明书12页 附图5页 CN 115220818 A 2022.10.21 CN 115220818 A 1.一种基于深度强化学习的实时依赖型任务卸载 方法, 其特 征在于, 包括以下步骤: 步骤S1: 基于任务卸载的系 统模型, 在运行时环境中使用DQN算法训练卸载操作Q值预 测模型; 步骤S2: 卸载操作Q值预测模型, 根据计算节点的计算能力、 计算节点之间的传输速率 以及应用的卸载方案, 预测不同卸载操作的Q值, 然后, 通过比较它们对应的Q值来选择合适 的卸载操作; 步骤S3: 重复步骤S2, 通过反馈迭代逐步 为每个任务决定执 行位置。 2.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法, 其特征在于, 所述任务卸载的系统模型包括系统模型和任务模型, 具体为: 系统模型包括移动设备MD、 边缘服务器ES和云服务器CS, 用V={MD, ES, CS}表示计算节 点的集合, 每个计算节点 的计算能力用fk(k∈V)表示; 不同计算节点之间的数据传输速率 用vk, l(k, l∈V)表示; 任务模型, 具体为: 一个应用程序由一个有向无环图G=(N, E)表示, 其中N={1, 2, ..., n}表示子任务集合, n为子任务个数, 每个任务的计算量用ci(i∈N)表示; E={ei, j|i, j∈N, i<j}表示子任务间的依赖有向边集, 对于一条ei, j∈E的有向边, 称 子任务i是子任务j的直 接前驱任务, 子任务j是子任务i的直接后继任务; 此外, 每条ei, j∈E的有向边与权重di, j相 关联, di, j表示从子任务i传输到子任务j的数据量; 用pre(i)和suc(i)来表示子任务i的直 接前驱任务集合和直接后继任务集合, 一个子任务只有接收到它所有 前驱任务的处理结果 后才能开始执 行。 3.根据权利要求2所述的基于深度强化学习的实时依赖型任务卸载方法, 其特征在于, 定义一个二进制变量xik来表示卸载方案, 若xik=1表示将子任务i分配给计算节点k, 反之 xik=0; 由于每 个子任务只能分配给网络中的一个 计算节点, 因此有以下定义: 此外, 对于任一子任务j∈N需满足两个条件才可以开始执行; 首先, 分配的计算节点可 用, 即当前没有其 他子任务在该计算节点上执 行; 子任务j所分配的节点的可用时间 应满 足以下约束: 其中 为子任务 i的完成时间; 第二, 子任务j应该准备就绪, 即它已经接收到所有前驱子任务的处理结果, 任务j就绪 时间 定义为: 如果子任务j和它的一个前驱子任务i∈P(j)分别被分配给不同的计算节点k和l, 需要 考虑通信延迟 在这种情况 下, 约束右边的第二项将为 零;权 利 要 求 书 1/3 页 2 CN 115220818 A 2综合考虑上述两个条件, 子任务j的开始时间定义 为: 子任务j的结束时间定义 为: 用D1: t表示在第t个时间步成功完成的所有子任务 集合; 应用程序在第t个时间步的累积执 行延迟T1: t定义为: 一个应用程序被认为是完成的, 当且仅当其所有n个子任务都成功完成, 当一个应用程 序的所有n个任务都成功完成时, 此时D1: n={1, 2, ..., n}; 因此, 应用程序的总执行延迟T1: n 通过以下公式计算: 对于一个有n个任务的应用, 用DEP=(dep(1), dep(2), ..., dep(n))表示应用的卸载方 案; 其中dep(i)∈{1, 2, 3}代表了任务i∈N的执行位置, 即分别 为终端设备、 边缘服务器和 云服务器; 目标函数定义 为: Minimize T1: n。 4.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法, 其特征在于, 所述DQN算法在运行时云边环 境中获取状态s, 再通过ε ‑greedy策略选择动作a, 然后就会收 到环境执行动作a后得到的奖励值r以及下一个状态s ′; 接下来DQN算法将 每一步得到的(s, a, r, s′)存放到经验存储池中; 通常, DQN算法中的经验存放池的容量是预先设定好的, 当达 到存储阈值后, 对神经网络参数进行 更新, 神经网络的损失函数如下: Loss=(r+γmaxQ(s ′, a′; ω′)‑Q(s, a; ω) )2 其中, γ是折扣因子; Q(s, a; ω)是 “EvalNet”的输出, 它计算当前状态动作对的Q值, ω 是“EvalNet”的DNN权重; maxQ(s ′, a′; ω′)是“TargetNet ”的输出, 它计算在下一个状态s ′ 执行动作a′时的最大Q 值, ω′是“TargetNet ”的DNN权重。 5.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法, 其特征在于, 所述步骤S2具体为: 首先, 随机初始化EvalNet神经网络的权重ω、 TargetNet神经网络的权重ω ′=ω(第3 行); 对于每个训练周期, 当前卸载 方案DEPcur、 当前状态s和当前响应时间T都会初始化; 在算法训练过程中, 通过ε ‑greedy策略依次决定每个子任务的执行位置, 以ε 的概率从 所有的卸载 方案中随机 选择一个, 以1 ‑ε 的概率选择Eval Net中Q值最大的卸载 方案; 接下来, 执行动作a并获得新的响应时间T ′, 计算奖励r并更新当前响应时间T, 观测到 下一个状态s′; 之后, 将(s, a, r, s ′)放入经验 存放池中, 并随机抽取 经验池中的m个样本, 计算目标值; 接下来, 根据均方差损失函数得到Loss并使用Adam优化器更新EvalNet神经网络的权 重ω, 并且在到 达设定的C轮迭代后更新TargetNet神经网络的权 重ω′=ω;权 利 要 求 书 2/3 页 3 CN 115220818 A 3

.PDF文档 专利 基于深度强化学习的实时依赖型任务卸载方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的实时依赖型任务卸载方法 第 1 页 专利 基于深度强化学习的实时依赖型任务卸载方法 第 2 页 专利 基于深度强化学习的实时依赖型任务卸载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:13:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。