说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211001696.0 (22)申请日 2022.08.20 (71)申请人 抖音视界有限公司 地址 100041 北京市石景山区实兴大街3 0 号院3号楼 2层B-0035房间 申请人 脸萌有限公司 (72)发明人 刘渊强 赵怡浩 彭杨华 朱亦博  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 专利代理师 陈霁 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 模型训练任务的调度方法、 装置及电子设备 (57)摘要 本公开提供一种模型训练任务的调度方法、 装置及电子设备, 所述方法的一具体实施方式包 括: 确定目标任务组; 所述目标任务组中包括待 处理的多个模型训练任务; 确定任务调度信息; 所述任务调度信息包括所述多个模型训练任务 的处理顺序; 基于所述任务调度信息, 调度所述 多个模型训练任务并行使用所述多个模型训练 资源, 使不同的模型训练任务同时使用不同的模 型训练资源。 该实施方式避免了模 型训练资源在 不同模型训练任务之间的争抢, 提高了模型训练 资源的利用率, 提升 了模型训练的效率。 权利要求书2页 说明书10页 附图5页 CN 115220899 A 2022.10.21 CN 115220899 A 1.一种模型训练任务的调度方法, 所述方法包括: 确定目标任务组; 所述目标任务组中包括待处 理的多个模型训练任务; 确定任务调度信息; 所述任务调度信息包括所述多个模型训练任务的处 理顺序; 基于所述任务调度信息, 调度所述多个模型训练任务并行使用所述多个模型训练资 源, 使不同的模型训练任务同时使用不同的模型训练资源。 2.根据权利要求1所述的方法, 其中, 所述基于所述任务调度信息, 调度所述多个模型 训练任务并行使用所述多个模型训练资源, 包括: 针对任一模型训练资源, 调度 所述多个模型训练任务按照所述任务调度信 息包括的所 述处理顺序使用该模 型训练资源; 其中, 按训练阶段对所述多个模型训练任务进 行调度, 每 个训练阶段对每 个所述模型训练任务调度一次。 3.根据权利要求1所述的方法, 其中, 所述确定任务调度信息, 包括: 确定多个备选的调度模式; 估计每个调度模式各自对应的参考指标; 所述参考指标与模型训练资源的使用效率相 关; 根据所述参考指标从所述多个备选的调度模式中选择目标调度模式, 并基于所述目标 调度模式确定所述任务调度信息 。 4.根据权利要求3所述的方法, 其中, 所述根据所述参考指标从所述多个备选的调度模 式中选择目标调度模式, 包括: 根据所述参考指标, 从所述多个备选的调度模式中选择模型训练资源的使用效率最高 的调度模式作为所述目标调度模式。 5.根据权利要求3所述的方法, 所述估计 每个调度模式各自对应的参 考指标, 包括: 确定每个模型训练任务使用每 个模型训练资源的第一估计时长; 根据所述第一估计时长, 估计 每个所述备选的调度模式各自对应的参 考指标。 6.根据权利要求5所述的方法, 其中, 针对任一模型训练资源和任一模型训练任务, 通 过如下方式确定该模型训练任务使用该模型训练资源的第一估计时长: 从预存的数据中查找该模型训练任务使用该模型训练资源的第一估计时长; 若未查找到该模型训练任务使用该模型训练资源的第 一估计时长, 根据 该模型训练资 源和该模型训练任务, 计算该第一估计时长 。 7.根据权利要求5所述的方法, 其中, 针对任一备选的调度模式, 通过如下方式估计该 备选的调度模式对应的参 考指标: 基于所述第一估计时长, 计算该备选的调度模式对应的一次迭代过程的第二估计时 长, 并基于所述第二估计时长确定该 备选的调度方式对应的参 考指标。 8.根据权利要求1所述的方法, 其中, 所述目标任务组中包括的模型训练任务的数量小 于等于不同类型的所述模型训练资源的数量。 9.根据权利要求1所述的方法, 其中, 通过同一进程将所述多个模型训练任务调度 给不 同类型的多个模型训练资源。 10.根据权利要求1所述的方法, 其中, 所述多个模型训练资源中包括GPU资源; 不同的 模型训练任务 通过相同的统一计算设备架构CUDA的上 下文使用GPU资源。 11.一种模型训练任务的调度装置, 所述装置包括:权 利 要 求 书 1/2 页 2 CN 115220899 A 2获取模块, 用于确定目标任务组; 所述目标任务组中包括待处 理的多个模型训练任务; 确定模块, 用于确定任务调度信息; 所述任务调度信息包括所述多个模型训练任务的 处理顺序; 调度模块, 用于基于所述任务调度信息, 调度所述多个模型训练任务并行使用所述多 个模型训练资源, 使不同的模型训练任务同时使用不同的模型训练资源。 12.一种计算机可读存储介质, 其上存储有计算机程序, 当所述计算机程序在计算机中 执行时, 令所述计算机执 行权利要求1 ‑10中任一项所述的方法。 13.一种电子设备, 包括存储器和 处理器, 所述存储器中存储有可执行代码, 所述处理 器执行所述可执行代码时, 实现权利要求1 ‑10中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115220899 A 3

.PDF文档 专利 模型训练任务的调度方法、装置及电子设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型训练任务的调度方法、装置及电子设备 第 1 页 专利 模型训练任务的调度方法、装置及电子设备 第 2 页 专利 模型训练任务的调度方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:14:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。