专利一种基于设备特性的异步联邦学习的任务调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211174103.0 (22)申请日 2022.09.26 (71)申请人广西师范大学地址 541004 广西壮族自治区桂林市七星区育才路15号 (72)发明人刘鹏　先友全　李东城　蒋剑勇　霍浩　 (74)专利代理机构桂林市华杰专利商标事务所有限责任公司 451 12 专利代理师覃永峰 (51)Int.Cl. G06N 20/20(2019.01) G06F 9/50(2006.01) (54)发明名称一种基于设备特性的异步联邦学习的任务调度方法 (57)摘要本发明公开了一种基于设备特性的异步联邦学习的任务调度方法，包括如下步骤：阶段一：初始化模型，设置训练超参数；阶段二：选择设备，分配训练任务；阶段三：参与设备进行本地训练；阶段四：参数服务器聚合。这种方法收敛速度快，资源利用率高，提高了联邦学习中的资源利用率、增加设备与服务器的交互。权利要求书4页说明书9页附图2页 CN 115470937 A 2022.12.13 CN 115470937 A 1.一种基于设备特性的异步联邦学习的任务调度方法，其特征在于，包括如下步骤：阶段一：初始化模型，设置训练超参数：步骤1.1、初始化：设置联邦学习的超参数，初始化全局模型和历史训练信息：设置联邦学习的超参数包括设备学习率γ、聚合容忍延时Ω、训练设备最大训练次数D、最低可用电量Bmin和最低资源探索率∈；初始化的历史训练信息包括参数服务器的聚合时间、训练设备的单位计算时间和传输时间；步骤1.2、通过历史训练信息估算本轮参数服务器聚合时间、训练设备的单位计算时间和传输时间，获取尚未完成的任务和设备；参数服务器的聚合时间tmerge为：训练设备j的单位计算时间为：训练设备j的传输时间为：式中，表示第i轮参数服务器聚合参与训练设备上传的梯度所花费的时间；表示第i轮训练中训练设备j完成参数服务器为其分配任务所花费的计算用时；表示第i轮训练中训练设备j 被分配的训练次数；表示第i轮训练中训练设备j从参数服务器下载全局模型的时间；表示第i轮训练中训练设备j向参数服务器上传梯度的时间； lj表示训练设备j参与聚合的总轮数， l表示历史聚合总轮数；阶段二：选择设备，分配训练任务：步骤2.1、第i轮聚合开始时，参数服务器获取第1～i ‑1轮历史平均聚合时间，即参数服务器的聚合时间tmerge作为本轮聚合选择设备的预估聚合时间，即从设备开始上传到聚合完成所花费的时间；步骤2.2、参数服务器将当前正在进行，且还未结束的训练任务中最后一个训练任务的预估结束时间记作tend，即本次训练任务开始聚合的预估时间；正常情况下，参数服务器会使用已完成的历史任务中训练的平均资源状况作为Cmin,Mmin；并且参数服务器会每轮随机生成α,当α ≤∈时会减少1/2的资源花费去完成当前的任务；其中∈是最低资源探索率， α 是一个0‑1之间的随机数；权　利　要　求　书 1/4 页 2 CN 115470937 A 2步骤2.3、参数服务器获取当前可用设备，可用设备是指当前尚未在任务过程中且当前可用资源满足最低资源需求的设备，并遍历所有可用设备，为其分配最优训练任务，首先，预估训练设备的开始聚合的时间其中tstart表示当前时刻；选择设备预估完成时间和tend之差在容忍聚合延时Ω内，且训练轮次多的设备j，即求得满足下式的设备j和训练次数 Cmin≤Cj， Mmin≤Mj， Bmin≤Bj，其中为设备j本地训练的训练次数， Cj为设备j的训练资源， Mj为设备j的内存资源,Bj 为设备j的电量；步骤2.4、在训练过程中存在掉队情况下，参数服务器需要聚合掉队情况下的梯度，并为后续的训练任务预留时间，因为变大，导致下一个任务的预估完成时间延后，依次影响后续所有的完成时间，对此需要在本次任务中延后tend，以中断依次延后的情况继续发生；本次训练任务的初始结束时间tend＝tend+(tmerge+tstart‑tnext)；其中tnext是预估下一个任务完成的时间；步骤2.5、本轮选择参与训练的设备数为L， L满足：或者当前的设备不足为止，每确定一个设备参与训练 L ＝ L + 1 ，直到 L 不满足结束本轮的参与设备选择和任务分配；假设当前处于tstart时刻，预估当前存活的最后一个任务结束时间为t1，准备选取下一轮的参与设备并为其分配任务，当前分配的任务需要满足不同设备上传的模型梯度开始被聚合的时间之差近似等于参数服务器聚合调度所花费的时间；权　利　要　求　书 2/4 页 3 CN 115470937 A 3

专利 一种基于设备特性的异步联邦学习的任务调度方法

专利一种基于设备特性的异步联邦学习的任务调度方法