专利基于深度强化学习的实时依赖型任务卸载方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210937248.5 (22)申请日 2022.08.05 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人陈星　胡晟熙　姚泽玮　林潮伟　 (74)专利代理机构福州元创专利商标代理有限公司 35100 专利代理师陈鼎桂　蔡学俊 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度强化学习的实时依赖型任务卸载方法 (57)摘要本发明涉及一种基于深度强化学习的实时依赖型任务卸载方法，包括以下步骤：步骤S1:基于任务卸载的系统模型，在运行时环境中使用 DQN算法训练卸载操作Q值预测模型；步骤S2:卸载操作Q值预测模型，根据计算节点的计算能力、计算节点之间的传输速率以及应用的卸载方案，预测不同卸载操作的Q值，然后，通过比较它们对应的Q值来选择合适的卸载操作；步骤S3:重复步骤S2，通过反馈迭代逐步为每个任务决定执行位置。本发明能够很好地适应不同的云边缘环境，并高效地生成卸载方案。权利要求书3页说明书12页附图5页 CN 115220818 A 2022.10.21 CN 115220818 A 1.一种基于深度强化学习的实时依赖型任务卸载方法，其特征在于，包括以下步骤：步骤S1：基于任务卸载的系统模型，在运行时环境中使用DQN算法训练卸载操作Q值预测模型；步骤S2：卸载操作Q值预测模型，根据计算节点的计算能力、计算节点之间的传输速率以及应用的卸载方案，预测不同卸载操作的Q值，然后，通过比较它们对应的Q值来选择合适的卸载操作；步骤S3：重复步骤S2，通过反馈迭代逐步为每个任务决定执行位置。 2.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法，其特征在于，所述任务卸载的系统模型包括系统模型和任务模型，具体为：系统模型包括移动设备MD、边缘服务器ES和云服务器CS，用V＝{MD， ES， CS}表示计算节点的集合，每个计算节点的计算能力用fk(k∈V)表示；不同计算节点之间的数据传输速率用vk， l(k， l∈V)表示；任务模型，具体为：一个应用程序由一个有向无环图G＝(N， E)表示，其中N＝{1， 2， ...， n}表示子任务集合， n为子任务个数，每个任务的计算量用ci(i∈N)表示； E＝{ei， j|i， j∈N， i＜j}表示子任务间的依赖有向边集，对于一条ei， j∈E的有向边，称子任务i是子任务j的直接前驱任务，子任务j是子任务i的直接后继任务；此外，每条ei， j∈E的有向边与权重di， j相关联， di， j表示从子任务i传输到子任务j的数据量；用pre(i)和suc(i)来表示子任务i的直接前驱任务集合和直接后继任务集合，一个子任务只有接收到它所有前驱任务的处理结果后才能开始执行。 3.根据权利要求2所述的基于深度强化学习的实时依赖型任务卸载方法，其特征在于，定义一个二进制变量xik来表示卸载方案，若xik＝1表示将子任务i分配给计算节点k，反之 xik＝0；由于每个子任务只能分配给网络中的一个计算节点，因此有以下定义：此外，对于任一子任务j∈N需满足两个条件才可以开始执行；首先，分配的计算节点可用，即当前没有其他子任务在该计算节点上执行；子任务j所分配的节点的可用时间应满足以下约束：其中为子任务 i的完成时间；第二，子任务j应该准备就绪，即它已经接收到所有前驱子任务的处理结果，任务j就绪时间定义为：如果子任务j和它的一个前驱子任务i∈P(j)分别被分配给不同的计算节点k和l，需要考虑通信延迟在这种情况下，约束右边的第二项将为零；权　利　要　求　书 1/3 页 2 CN 115220818 A 2综合考虑上述两个条件，子任务j的开始时间定义为：子任务j的结束时间定义为：用D1： t表示在第t个时间步成功完成的所有子任务集合；应用程序在第t个时间步的累积执行延迟T1： t定义为：一个应用程序被认为是完成的，当且仅当其所有n个子任务都成功完成，当一个应用程序的所有n个任务都成功完成时，此时D1： n＝{1， 2， ...， n}；因此，应用程序的总执行延迟T1： n 通过以下公式计算：对于一个有n个任务的应用，用DEP＝(dep(1)， dep(2)， ...， dep(n))表示应用的卸载方案；其中dep(i)∈{1， 2， 3}代表了任务i∈N的执行位置，即分别为终端设备、边缘服务器和云服务器；目标函数定义为： Minimize T1： n。 4.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法，其特征在于，所述DQN算法在运行时云边环境中获取状态s，再通过ε ‑greedy策略选择动作a，然后就会收到环境执行动作a后得到的奖励值r以及下一个状态s ′；接下来DQN算法将每一步得到的(s， a， r， s′)存放到经验存储池中；通常， DQN算法中的经验存放池的容量是预先设定好的，当达到存储阈值后，对神经网络参数进行更新，神经网络的损失函数如下： Loss＝(r+γmaxQ(s ′， a′； ω′)‑Q(s， a； ω) )2 其中， γ是折扣因子； Q(s， a； ω)是 “EvalNet”的输出，它计算当前状态动作对的Q值， ω 是“EvalNet”的DNN权重； maxQ(s ′， a′； ω′)是“TargetNet ”的输出，它计算在下一个状态s ′ 执行动作a′时的最大Q 值， ω′是“TargetNet ”的DNN权重。 5.根据权利要求1所述的基于深度强化学习的实时依赖型任务卸载方法，其特征在于，所述步骤S2具体为：首先，随机初始化EvalNet神经网络的权重ω、 TargetNet神经网络的权重ω ′＝ω(第3 行)；对于每个训练周期，当前卸载方案DEPcur、当前状态s和当前响应时间T都会初始化；在算法训练过程中，通过ε ‑greedy策略依次决定每个子任务的执行位置，以ε 的概率从所有的卸载方案中随机选择一个，以1 ‑ε 的概率选择Eval Net中Q值最大的卸载方案；接下来，执行动作a并获得新的响应时间T ′，计算奖励r并更新当前响应时间T，观测到下一个状态s′；之后，将(s， a， r， s ′)放入经验存放池中，并随机抽取经验池中的m个样本，计算目标值；接下来，根据均方差损失函数得到Loss并使用Adam优化器更新EvalNet神经网络的权重ω，并且在到达设定的C轮迭代后更新TargetNet神经网络的权重ω′＝ω；权　利　要　求　书 2/3 页 3 CN 115220818 A 3

专利 基于深度强化学习的实时依赖型任务卸载方法

专利基于深度强化学习的实时依赖型任务卸载方法