专利面向智能计算的流水并行训练自适应调整系统、方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211147981.3 (22)申请日 2022.09.21 (65)同一申请的已公布的文献号申请公布号 CN 115237580 A (43)申请公布日 2022.10.25 (73)专利权人之江实验室地址 310012 浙江省杭州市余杭区文一西路1818号 (72)发明人朱世强　李勇　程稳　陈光　曾令仿　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师贾玉霞 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01)G06T 1/40(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 114780247 A,202 2.07.22 CN 113312178 A,2021.08.27 CN 113326002 A,2021.08.31 US 20193 32422 A1,2019.10.31 US 20193 62227 A1,2019.1 1.28 徐梦炜等.面向移动终端智能的自治学习系统. 《软件学报》 .2020,(第10期), Shixiong Zhao.vPipe: A Virtual ized Accelerati on System for Ac hieving Efficient and Scalable Pipel ine Paral lel DNN Training. 《IEEE Transacti ons on Parallel and Distributed System s》 .2022, 审查员辛小霞 (54)发明名称面向智能计算的流水并行训练自适应调整系统、方法 (57)摘要本发明提供一种面向智能计算的流水并行训练自适应调整系统、方法，系统包括监控模块和调整模块，调整模块在计算节点的计算任务划分不均衡时，根据计算节点的不均衡类型，确定调整策略，并根据调整策略，调整子模型在计算集群中的分配；调整包括以下至少一种：将计算任务划分不均衡的计算节点的至少部分子模型的层由该计算节点迁移至其他计算节点；控制计算任务划分不均衡的计算节点执行CP U‑GPU内存交换或重计算，或者控制计算任务划分不均衡的计算节点取消当前执行的CP U‑GPU内存交换或重计算；对计算集群的网络拓扑结构进行调整。本发明能动态调整子模型在计算集群中的分配。权利要求书4页说明书11页附图6页 CN 115237580 B 2022.12.16 CN 115237580 B 1.一种面向智能计算的流水并行训练自适应调整系统，其特征在于，计算集群包括多个计算节点，多个计算节点之间能够相互通信，各计算节点包括至少一CPU和至少一个 GPU，待训练模型包括多层子模型，所述待训练模型的训练过程包括前向计算阶段及反向计算阶段，其中，在所述前向计算阶段，参数由多层所述子模型的第一层子模型依次向最后一层子模型传递，在所述反向计算阶段，参数由所述最后一层子模型依次向所述第一层子模型传递，各计算节点用于训练至少一个子模型；所述系统包括：监控模块，用于负责监控和收集所述计算集群内各计算节点的资源运行情况，并根据各计算节点的资源运行情况，确定该计算节点的计算任务划分是否均衡，以及当所述计算节点的计算任务划分不均衡时，确定所述计算节点的不均衡类型；调整模块，当所述计算节点的计算任务划分不均衡时，用于根据所述计算节点的不均衡类型，确定调整策略，并根据所述调整策略，调整子模型在计算集群中的分配；其中，所述调整包括以下至少一种：将计算任务划分不均衡的计算节点的至少部分子模型的层由该计算节点迁移至其他计算节点；控制计算任务划分不均衡的计算节点执行CPU ‑GPU内存交换或重计算，或者控制计算任务划分不均衡的计算节点取消当前执行的CPU‑GPU内存交换或重计算；对所述计算集群的网络拓扑结构进行调整。 2.根据权利要求1所述的面向智能计算的流水并行训练自适应调整系统，其特征在于，所述资源运行情况包括计算延迟、 GPU利用率、网络传输延迟及内存使用率；所述监控模块在根据各计算节点的资源运行情况，确定该计算节点的计算任务划分是否均衡时，具体用于：当根据当前计算节点的资源运行情况，确定当前计算节点存在以下中的至少一种时，确定该计算节点的计算任务划分不均衡：所述当前计算节点的计算延迟大于或等于预设延迟阈值；所述当前计算节点的内存使用率大于或等于预设内存使用率阈值且所述当前计算节点的GPU利用率小于所述计算集群中所有计算节点的GPU利用率的平均值；当前计算节点的网络延迟超过所述计算集群中其他计算节点的最大网络延迟的预设倍数，其中所述预设倍数大于或等于1。 3.根据权利要求2所述的面向智能计算的流水并行训练自适应调整系统，其特征在于，所述监控模块在所述计算节点的计算任务划分不均衡时，确定所述计算节点的不均衡类型时，具体用于：当当前计算节点的计算延迟大于或等于预设延迟阈值、和/或所述当前计算节点的内存使用率大于或等于预设内存使用率阈值且所述当前计算节点的GPU利用率小于所述计算集群中所有计算节点的GPU利用率的平均值时，所述当前计算节点的不均衡类型包括：当前计算阶段分配的层过多；当当前计算节点的网络延迟超过所述计算集群中其他计算节点的最大网络延迟的预设倍数时，所述当前计算节点的不均衡类型包括：网络异常。 4.根据权利要求3所述的面向智能计算的流水并行训练自适应调整系统，其特征在于，当当前计算节点的计算延迟大于或等于预设延迟阈值时，所述调整策略包括计算调整策权　利　要　求　书 1/4 页 2 CN 115237580 B 2略；所述计算调整策略包括：当当前计算节点采用CPU ‑GPU内存交换或重计算时，取消所述当前计算节点采用的 CPU‑GPU内存交换或重计算；在取消所述当前计算节点采用的CPU ‑GPU内存交换或重计算后，若所述当前计算节点执行所述当前计算节点上的子模型所需要的内存需求超出所述当前计算节点的最大内存，则根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节点的后一个计算节点的GPU利用率，将所述当前计算节点的至少部分子模型的至少部分层迁移至其他计算节点执行。 5.根据权利要求4所述的面向智能计算的流水并行训练自适应调整系统，其特征在于，所述根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节点的后一个计算节点的GPU利用率，将所述当前计算节点的至少部分子模型的至少部分层迁移至其他计算节点执行，包括：当所述当前计算节点前一个计算节点的GPU利用率小于所述当前计算节点的后一个计算节点的GPU利用率时，将所述当前计算节点前一个计算节点为初始目标计算节点；当所述当前计算节点前一个计算节点为初始目标计算节点时，比较所述初始目标计算节点的GPU利用率与所述初始目标计算节点的前一个计算节点的GPU利用率，若所述初始目标计算节点的GPU利用率小于所述初始目标计算节点的前一个计算节点的GPU利用率，则将所述初始目标计算节点作为最终的目标计算节点；若所述初始目标计算节点的GPU利用率大于所述初始目标计算节点的前一个计算节点的GPU利用率，则将所述初始目标计算节点的前一个计算节点作为新的初始目标计算节点，继续前迁移比较，依次进行，直至最前面的目标计算节点；将所述当前计算节点的至少部分子模型的至少部分层迁移至最终的目标计算节点执行。 6.根据权利要求4所述的面向智能计算的流水并行训练自适应调整系统，其特征在于，所述根据所述当前计算节点前一个计算节点的GPU利用率及所述当前计算节点的后一个计算节点的GPU利用率，将所述当前计算节点的至少部分子模型的至少部分层迁移至其他计算节点执行，包括：当所述当前计算节点前一个计算节点的GPU利用率大于所述当前计算节点的后一个计算节点的GPU利用率时，将所述当前计算节点的后一个计算节点作为初始目标计算节点；当所述当前计算节点后一个计算节点为初始目标计算节点时，比较所述初始目标计算节点的GPU利用率与所述初始目标计算节点的后一个计算节点的GPU利用率，若所述初始目标计算节点的GPU利用率小于所述初始目标计算节点的后一个计算节点的GPU利用率，则将所述初始目标计算节点作为最终的目标计算节点；若所述初始目标计算节点的GPU利用率大于所述初始目标计算节点的后一个计算节点的GPU利用率，则将所述初始目标计算节点的后一个计算节点作为新的初始目标计算节点，继续前迁移比较，依次进行，直至最前面的目标计算节点；将所述当前计算节点的至少部分子模型的至少部分子单元迁移至最终的目标计算节点执行。权　利　要　求　书 2/4 页 3 CN 115237580 B 3

专利 面向智能计算的流水并行训练自适应调整系统、方法

专利面向智能计算的流水并行训练自适应调整系统、方法