(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211147981.3
(22)申请日 2022.09.21
(65)同一申请的已公布的文献号
申请公布号 CN 115237580 A
(43)申请公布日 2022.10.25
(73)专利权人 之江实验室
地址 310012 浙江省杭州市余杭区文一西
路1818号
(72)发明人 朱世强 李勇 程稳 陈光
曾令仿
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 贾玉霞
(51)Int.Cl.
G06F 9/48(2006.01)
G06F 9/50(2006.01)G06T 1/40(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 114780247 A,202 2.07.22
CN 113312178 A,2021.08.27
CN 113326002 A,2021.08.31
US 20193 32422 A1,2019.10.31
US 20193 62227 A1,2019.1 1.28
徐梦炜等.面向移动终端智能的自治学习 系
统. 《软件学报》 .2020,(第10期),
Shixiong Zhao.vPipe: A Virtual ized
Accelerati on System for Ac hieving
Efficient and Scalable Pipel ine Paral lel
DNN Training. 《IEEE Transacti ons on
Parallel and Distributed System s》 .2022,
审查员 辛小霞
(54)发明名称
面向智能计算的流水并行训练自适应调整
系统、 方法
(57)摘要
本发明提供一种面向智能计算的流水并行
训练自适应调整系统、 方法, 系统包括监控模块
和调整模块, 调整模块在计算节 点的计算任务划
分不均衡时, 根据计算节点的不均衡类型, 确定
调整策略, 并根据调整策略, 调整子模型在计算
集群中的分配; 调整包括以下至少一种: 将计算
任务划分不均衡的计算节点的至少部分子模型
的层由该计算节点迁移至其他计算节 点; 控制计
算任务划分不均衡的计算节点执行CP U‑GPU内存
交换或重计算, 或者控制计算任务划分不均衡的
计算节点取消当前执行的CP U‑GPU内存交换或重
计算; 对计算集群的网络拓扑结构进行调整。 本
发明能动态调整子模型在计算 集群中的分配 。
权利要求书4页 说明书11页 附图6页
CN 115237580 B
2022.12.16
CN 115237580 B
1.一种面向智能计算的流水并行训练自适应调整系统, 其特征在于, 计算集群包括多
个计算节点, 多个计算节点之间能够相互通信, 各计算节 点包括至少一CPU和至少一个 GPU,
待训练模型包括多层子模型, 所述待训练模型的训练过程包括前向计算阶段及反向计算阶
段, 其中, 在所述前向计算阶段, 参数由多层所述子模型的第一层子模型依次向最后一层子
模型传递, 在所述反向计算 阶段, 参数 由所述最后一层子模型依 次向所述第一层子模型传
递, 各计算节点用于训练至少一个子模型; 所述系统包括:
监控模块, 用于负责监控和收集所述计算集群内各计算节点的资源运行情况, 并根据
各计算节点的资源运行情况, 确定该计算节点的计算任务划分是否均衡, 以及当所述计算
节点的计算任务划分不均衡时, 确定所述计算节点的不均衡 类型;
调整模块, 当所述计算节点的计算任务划分不均衡时, 用于根据所述计算节点的不均
衡类型, 确定调整策略, 并根据所述调整策略, 调整子模型在计算 集群中的分配;
其中, 所述调整包括以下至少一种:
将计算任务划分不均衡的计算节点的至少部分子模型的层由该计算节点迁移至其他
计算节点;
控制计算任务划分不均衡的计算节点执行CPU ‑GPU内存交换或重计算, 或者控制计算
任务划分不均衡的计算节点取消当前 执行的CPU‑GPU内存交换或重计算;
对所述计算 集群的网络 拓扑结构进行调整。
2.根据权利要求1所述的面向智能计算的流水并行训练自适应调整系统, 其特征在于,
所述资源运行情况包括计算延迟、 GPU利用率、 网络传输延迟及内存使用率;
所述监控模块在根据 各计算节点的资源运行情况, 确定该计算节点的计算任务划分是
否均衡时, 具体用于:
当根据当前计算节点的资源运行情况, 确定当前计算节点存在以下中的至少一种时,
确定该计算节点的计算任务划分不均衡:
所述当前计算节点的计算延迟大于或等于预设延迟阈值;
所述当前计算节点的内存使用率大于或等于预设内存使用率阈值且所述当前计算节
点的GPU利用率小于所述计算 集群中所有计算节点的GPU利用率的平均值;
当前计算节点的网络延迟超过所述计算集群中其他计算节点的最大网络延迟的预设
倍数, 其中所述预设倍数 大于或等于1。
3.根据权利要求2所述的面向智能计算的流水并行训练自适应调整系统, 其特征在于,
所述监控模块在所述计算节点的计算任务划分不均衡时, 确定所述计算节点的不均衡类型
时, 具体用于:
当当前计算节点的计算延迟大于或等于预设延迟阈值、 和/或所述当前计算节点的内
存使用率大于或等于预设内存使用率阈值且所述当前计算节 点的GPU利用率小于所述计算
集群中所有计算节点的GPU利用率的平均值时, 所述当前计算节 点的不均衡类型包括: 当前
计算阶段分配的层过多;
当当前计算节点的网络延迟超过所述计算集群中其他计算节点的最大网络延迟的预
设倍数时, 所述当前计算节点的不均衡 类型包括: 网络异常。
4.根据权利要求3所述的面向智能计算的流水并行训练自适应调整系统, 其特征在于,
当当前计算节点的计算延迟大于或等于预设延迟阈值时, 所述调整策略包括计算调整策权 利 要 求 书 1/4 页
2
CN 115237580 B
2略;
所述计算调整策略包括:
当当前计算节点采用CPU ‑GPU内存交换或重计算时, 取消所述当前计算节点采用的
CPU‑GPU内存交换或重计算;
在取消所述当前计算节点采用的CPU ‑GPU内存交换或重计算后, 若所述当前计算节点
执行所述当前计算节点上的子模型所需要的内存需求超出所述当前计算节点的最大内存,
则根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节点的后一个计算
节点的GPU利用率, 将所述当前计算节点的至少 部分子模型的至少 部分层迁移至其他计算
节点执行。
5.根据权利要求4所述的面向智能计算的流水并行训练自适应调整系统, 其特征在于,
所述根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节 点的后一个计
算节点的GPU利用率, 将所述当前计算节点的至少部分子模型的至少 部分层迁移至其他计
算节点执 行, 包括:
当所述当前计算节点前一个计算节点的GPU利用率小于所述当前计算节点的后 一个计
算节点的GPU利用率时, 将所述当前计算节点前一个 计算节点 为初始目标计算节点;
当所述当前计算节点前一个计算节点为初始目标计算节点 时, 比较所述初始目标计算
节点的GPU利用率与所述初始目标计算节点的前一个计算节 点的GPU利用率, 若 所述初始目
标计算节 点的GPU利用率小于所述初始目标计算节点的前一个计算节 点的GPU利用率, 则将
所述初始目标计算节点作为最终的目标计算节点; 若所述初始目标计算节点的GPU利用率
大于所述初始目标计算节点的前一个计算节点的GPU利用率, 则将所述初始目标计算节点
的前一个计算节点作为新的初始目标计算节点, 继续前迁移比较, 依次进 行, 直至最前面的
目标计算节点;
将所述当前计算节点的至少部分子模型的至少部分层迁移至最终的目标计算节点执
行。
6.根据权利要求4所述的面向智能计算的流水并行训练自适应调整系统, 其特征在于,
所述根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节 点的后一个计
算节点的GPU利用率, 将所述当前计算节点的至少部分子模型的至少 部分层迁移至其他计
算节点执 行, 包括:
当所述当前计算节点前一个计算节点的GPU利用率大于所述当前计算节点的后 一个计
算节点的GPU利用率时, 将所述当前计算节点的后一个 计算节点作为初始目标计算节点;
当所述当前计算节点后 一个计算节点为初始目标计算节点 时, 比较所述初始目标计算
节点的GPU利用率与所述初始目标计算节点的后一个计算节 点的GPU利用率, 若 所述初始目
标计算节 点的GPU利用率小于所述初始目标计算节点的后一个计算节 点的GPU利用率, 则将
所述初始目标计算节点作为最终的目标计算节点; 若所述初始目标计算节点的GPU利用率
大于所述初始目标计算节点的后一个计算节点的GPU利用率, 则将所述初始目标计算节点
的后一个计算节点作为新的初始目标计算节点, 继续前迁移比较, 依次进 行, 直至最前面的
目标计算节点;
将所述当前计算节点的至少部分子模型的至少部分子单元迁移至最终的目标计算节
点执行。权 利 要 求 书 2/4 页
3
CN 115237580 B
3
专利 面向智能计算的流水并行训练自适应调整系统、方法
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:15:51上传分享