说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211148202.1 (22)申请日 2022.09.21 (71)申请人 之江实验室 地址 310012 浙江省杭州市余杭区文一西 路1818号 (72)发明人 朱世强 李勇 程稳 陈光  曾令仿  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 贾玉霞 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06K 9/62(2022.01) (54)发明名称 面向智能计算的分布式训练任务调度方法、 系统和装置 (57)摘要 本发明提供一种面向智能计算的分布式训 练任务调度方法、 系统和装置, 系统包括模型性 能预测和分解模块、 全局GPU资源调度器和各计 算节点均配置的本地 GPU资源调度器, 全局GP U资 源调度器在接收到模型性能预测和分解模块发 送的子任务请求后, 根据各子任务的资源消耗信 息及多个计算节点的GPU运行情况, 将各子任务 分配到匹配的计算节点的GPU进行训练, 并构建 各子任务之间的通信拓扑, 并在各计算节点的 GPU训练对应子任务的过程中, 监控各计算节点 的GPU的计算资源运行情况, 及根据所有计算节 点的GPU的计算资源运行情况, 控制子任务的调 度。 本发明能够提高计算集群的GPU和网络等资 源的利用率, 减少子任务训练的等待时间。 权利要求书5页 说明书11页 附图7页 CN 115248728 A 2022.10.28 CN 115248728 A 1.一种面向智能计算的分布式训练任务调度系统, 其特征在于, 计算集群包括多个计 算节点, 多个计算节 点之间能够相互通信, 各计算节 点包括至少一CPU和至少一个 GPU, 所述 系统包括: 模型性能预测和分解模块: 用于根据用户输入的待训练模型、 目标完成时间和目标投 入资源, 确定所述待训练模型对应的分布式训练方式, 并将所述待训练模型划分成多个子 任务, 以及确定各子任务的资源消耗信息, 所述分布式训练方式包括数据并行、 流水并行和 混合并行中的一种, 所述混合并行包括数据并行和流水并行, 所述资源消 耗信息包括计算 消耗和内存消耗; 全局GPU资源调度器: 用于在接收到所述模型性能预测和分解模块发送 的子任务请求 后, 根据各子任务的资源消耗信息及 多个所述计算节点的GPU运行情况, 将各子任务分配到 匹配的计算节点的GPU进行训练, 并构建各子任务之间的通信拓扑, 并在各计算节点的GPU 训练对应子任务的过程中, 监控各计算节点的GPU的计算资源运行情况, 以及根据所有计算 节点的GPU的计算资源运行情况, 控制子任务的调度, 其中, 所述子任务请求携带有所述待 训练模型对应的分布式训练方式、 多个所述子任务及各子任务的资源消耗信息; 和 各计算节点均配置的本地GPU资源调度器: 用于根据所述分布式训练方式, 对分配到该 计算节点的子任务进行本地调度。 2.根据权利要求1所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 所述 计算资源运行情况包括子任务的等待时间和GPU利用率; 所述全局GPU资源调度器在根据所有计算节点的GPU的计算资源运行情况, 控制子任务 的调度时, 具体用于: 对等待时长大于或等于预设时长 阈值的子任务增加备份节点, 所述备份节点是多个所 述计算节点中除所述等待时长大于或等于预设时长阈值的子任务对应的当前计算节点外 的其他计算节点, 且所述备份节点的GPU利用率小于或等于预设利用率阈值; 将所述等待时长大于或等于预设时长阈值的子任务对应的最新模型参数拷贝到所述 备份节点, 以将所述等待时长大于或等于预设时长阈值的子任务对应的最新模型参数以数 据并行方式加入到所述备份节点在下一轮的迭代中参与该任务的训练中。 3.根据权利要求2所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 所述 全局GPU资源调度器在将所述等待时长大于或等于预设时长阈值的子任务对应的最新模型 参数拷贝到所述备份节点, 以将所述等待时长大于或等于预设时长阈值的子任务对应的最 新模型参数以数据并行方式加入到所述备份节点在下一轮的迭代中参与该任务的训练中 时, 具体用于: 向所述备份节点的本地GPU资源调度器发送第一调度信息, 所述第一调度信 息携带所述等待时长大于或等于预设时长阈值的子任务对应的最 新模型参数; 所述备份节点的本地GPU资源调度器在接收到所述第一调度信息后, 将所述等待时长 大于或等于预设时长阈值的子任务对应的最新模型参数以数据并行方式加入到所述备份 节点在下一轮的迭代中参与该任务的训练中。 4.根据权利要求1所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 当所 述子任务对应的分布式训练方式为数据并行时, 所述子任务的训练过程包括梯度计算阶段 和梯度同步阶段, 所述全局GPU资源调度器在根据所有计算节点的GPU的计算资源运行情 况, 控制子任务的调度时, 具体用于:权 利 要 求 书 1/5 页 2 CN 115248728 A 2根据所有数据并行的子任务所在的计算节点的GPU的计算资源运行情况, 控制对应子 任务的模型参数和中间变量的预 取。 5.根据权利要求4所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 所述 全局GPU资源调度器在根据所有数据并行的子任务所在的计算节点的GPU的计算资源运行 情况, 控制对应子任务的模型参数和中间变量的预 取时, 具体用于: 在接收到参数服务器开始计算所有数据并行的子任务的全局梯度信 息后, 发送第 二调 度信息给数据并行的子任务对应的计算节点, 以通过所述第二调度信息提示所述计算节点 优先执行相应的数据并行的子任务, 并从所述计算节点的GPU主存中将所述相应的数据并 行的子任务对应的最 新模型参数和中间变量拷贝回所述计算节点的GPU显存中; 所述相应的数据并行的子任务对应的最新模型参数和中间变量是在所述相应的数据 并行的子任务等待其他依赖子任务的计算结果期间, 且预计的等待时长超过所述计算节点 的CPU‑GPU内存拷贝时间时, 所述计算节点将所述相应的数据并行的子任务对应的模型参 数和中间变量由所述计算节点的GPU显存中 暂时迁移至所述计算节点的CPU 主存中。 6.根据权利要求1至5任一项所述的面向智能计算的分布式训练任务调度系统, 其特征 在于, 所述全局GPU资源调度器在监控各计算节点的GPU的计算资源运行情况时, 具体用于: 周期性获取 各计算节点的GPU的计算资源运行情况。 7.根据权利要求6所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 所述 全局GPU资源调度器具体用于: 周期性接收各计算节 点向所述全局GPU资源调度器反馈的该 计算节点的GPU的计算资源运行情况。 8.根据权利要求1所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 所述 全局GPU资源调度器还用于: 在所述待训练模型训练完成后, 根据所述待训练模型的各子任务的历史分配信息, 确 定各子任务所在的计算节点; 控制各子任务所在的计算节点回收该计算节点上训练对应的子任务时使用的本地资 源; 在确定所有计算节点资源回收结束后, 释放全局GPU资源调度器上训练所述待训练模 型时使用的资源。 9.根据权利要求6所述的面向智能计算的分布式训练任务调度系统, 其特征在于,  各 计算节点均配置的本地GPU资源调度器在根据所述分布式训练方式, 对分配到该计算节点 的子任务进行本地调度时, 具体用于: 当根据所述分布式训练方式, 确定分配到本地的子任务的训练类型, 所述训练类型包 括数据并行任务和流水并行任务; 根据所述分配到本地的子任务的训练类型, 确定所述分配到本地的子任务的本地调度 策略; 根据所述本地调度策略, 对所述分配到 本地的子任务进行本地调度; 当所述训练类型为数据并行任务时, 所述子任务的本地调度策略为第一调度策略; 当所述训练类型为 流水并行任务时, 所述子任务的本地调度策略为第二调度策略。 10.根据权利要求9所述的面向智能计算的分布式训练任务调度系统, 其特征在于, 当 所述训练类型为数据并行任务时, 所述子任务的训练过程包括梯度计算阶段和梯度同步阶权 利 要 求 书 2/5 页 3 CN 115248728 A 3

.PDF文档 专利 面向智能计算的分布式训练任务调度方法、系统和装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向智能计算的分布式训练任务调度方法、系统和装置 第 1 页 专利 面向智能计算的分布式训练任务调度方法、系统和装置 第 2 页 专利 面向智能计算的分布式训练任务调度方法、系统和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:15:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。