专利任务执行方法和装置、存储介质和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211192916.2 (22)申请日 2022.09.28 (71)申请人苏州浪潮智能科技有限公司地址 215000 江苏省苏州市吴中区吴中经济开发区郭巷街道关浦路1号9幢 (72)发明人王德奎　 (74)专利代理机构北京康信知识产权代理有限责任公司 1 1240 专利代理师赵静 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称任务执行方法和装置、存储介质和电子设备 (57)摘要本申请实施例提供了一种任务执行方法和装置、存储介质和电子设备，其中，该方法包括：获取待执行的目标任务，其中，目标任务申请使用一组线程，一组线程中的每个线程需要使用N 个图形处理器GP U资源， N为正整数；在GP U服务器集群中的各个GP U服务器上的GPU资源中，为一组线程中的每个线程分配允许使用的N个GPU资源，其中， GPU服务器集群中的M个GPU服务器中的不同GPU服务器上具有相同网卡名称的网卡接入一组交换机中的同一交换机，一组线程中的至少部分线程分配到的N个GP U资源是多个GPU 服务器上相同网卡名称的网卡对应的GPU资源；通过一组线程以及为一组线程中的每个线程分配的允许使用的N个GPU资源，执行目标任务。权利要求书3页说明书12页附图4页 CN 115509749 A 2022.12.23 CN 115509749 A 1.一种任务执行方法，其特征在于，包括：获取待执行的目标任务，其中，所述目标任务申请使用一组线程，所述一组线程中的每个线程需要使用N个图形处理器GPU资源， N 为正整数；在GPU服务器集群中的各个GPU服务器上的GPU资源中，为所述一组线程中的每个线程分配允许使用的N个GPU资源，其中，所述GPU服务器集群包括M个GPU服务器，所述M个GPU服务器中的每个GPU服务器均与一组交换机连接，所述每个GPU服务器上设置有一组网卡、所述一组网卡中的每个网卡接入所述一组交换机中的不同交换机、所述M个GPU服务器中的不同GPU服务器上具有相同网卡名称的网卡接入所述一组交换机中的同一交换机，所述一组网卡中的每个网卡与所在的GPU服务器上的一组GPU资源对应， M为正整数，所述一组线程中的至少部分线程分配到的N个GPU资源是多个GPU服务器上相同网卡名称的网卡对应的GPU 资源；通过所述一组线程以及为所述一组线程中的每个线程分配的允许使用的N个GPU资源，执行所述目标任务。 2.根据权利要求1所述的方法，其特征在于，所述在GPU服务器集群中的各个GPU服务器上的GPU资源中，为所述一组线程中的每个线程分配允许使用的N个GPU资源，包括：在所述M个GPU服务器中确定Y组GPU资源，其中， Y为正整数，所述Y组GPU资源包括Y个 GPU服务器中的每个 GPU服务器上与相同网卡名称的网卡对应的一组GPU资源， Y小于或等于 M；在所述一组线程包括P个线程的情况下，在所述Y组GPU资源中查找允许分配给所述P个线程使用的P组GPU资源，其中， P＝1，或， P为大于或等于2的正整数，所述P组GPU资源中的每组GPU资源包括N个GPU资源；在所述Y组GPU资源中查找到允许分配给所述P个线程使用的P组GPU资源的情况下，将查找到的所述P组GPU资源分配给所述P个线程，其中，所述P个线程中的每个线程被分配到所述P组GPU资源中对应的一组GPU资源。 3.根据权利要求2所述的方法，其特征在于，在所述Y组GPU资源中查找允许分配给所述 P个线程使用的P组GPU资源，包括：在所述Y组GPU资源中的GPU资源的数量大于或等于目标数量的情况下，将所述Y组GPU 资源中的所述目标数量的GPU资源确定为查找到的所述P组GPU资源，其中，所述目标数量为 N与P的乘积。 4.根据权利要求3所述的方法，其特征在于，所述将所述Y组GPU资源中的所述目标数量的GPU资源确定为查找到的所述P组GPU资源，包括：在所述Y组GPU资源中选择所述P组GPU资源，其中，所述P组GPU资源包括所述Y个GPU服务器中的Q个GPU服务器上的GPU资源， Q小于或等于预设数量阈值，且小于或等于 Y。 5.根据权利要求2所述的方法，其特征在于，将查找到的所述P组GPU资源分配给所述P 个线程，包括：确定每个相同网卡名称分别对应的Y组GPU资源中允许分配给所述P个线程使用的P组 GPU资源；根据所述每个相同网卡名称分别对应的P组GPU资源确定每个相同网卡名称分别对应的GPU服务器集群的集中度；权　利　要　求　书 1/3 页 2 CN 115509749 A 2在多个集中度中确定数值最大的目标集中度；确定所述目标集中度对应的目标网卡名称，以及将所述目标网卡名称对应的P组GPU资源分配给所述P个线程。 6.根据权利要求5所述的方法，其特征在于，根据所述每个相同网卡名称分别对应的P 组GPU资源确定每个相同网卡名称分别对应的GPU服务器集群的集中度，包括：确定步骤：确定所述M个GPU服务器中的每个GPU服务器中所有的GPU资源的第一数量；确定在将任一相同网卡名称对应的P组GPU资源分配给所述P个线程的情况下，所述M个GPU 服务器中的每个 GPU服务器中已分配的GPU资源的第二数量，其中，所述已分配的GPU资源包括：为其他线程分配允许使用的GPU资源的数量和允许分配给所述P个线程使用的GPU资源的数量；根据所述第一数量和所述第二数量确定所述任一相同网卡名称对应的GPU服务器集群的集中度；循环执行所述确定步骤，直至确定所述每个相同网卡名称分别对应的GPU服务器集群的集中度。 7.根据权利要求6所述的方法，其特征在于，根据所述第一数量和所述第二数量确定所述任一相同网卡名称对应的GPU服务器集群的集中度，包括：确定所述第二数量和所述第一数量的商值的平方，并将所述商值的平方作为所述每个 GPU服务器的集中度；将所述每个GPU服务器的集中度相加，以确定所述任一相同网卡名称对应的GPU服务器集群的集中度。 8.根据权利要求2所述的方法，其特征在于，在所述Y组GPU资源中查找允许分配给所述 P个线程使用的P组GPU资源之后，所述方法还包括：在所述Y组GPU资源中未查找到允许分配给所述P个线程使用的P组GPU资源的情况下，在所述M个GPU服务器中确定X组GPU资源，其中， X为正整数，所述X组GPU资源包括X个GPU服务器中的每个GPU服务器上与不同网卡名称的网卡对应的一组GPU资源， X小于或等于 M；在所述一组线程包括P个线程的情况下，在所述X组GPU资源中查找允许分配给所述P个线程使用的P组GPU资源，其中， P＝1，或， P为大于或等于2的正整数，所述P组GPU资源中的每组GPU资源包括N个GPU资源；在所述X组GPU资源中查找到允许分配给所述P个线程使用的P组GPU资源的情况下，将所述X组GPU资源中查找到的所述P组GPU资源分配给所述P个线程，其中，所述P个线程中的每个线程被分配到所述P组GPU资源中对应的一组GPU资源。 9.一种任务执行装置，其特征在于，包括：获取模块，用于获取待执行的目标任务，其中，所述目标任务申请使用一组线程，所述一组线程中的每个线程需要使用N个图形处理器GPU资源， N 为正整数；分配模块，用于在GPU服务器集群中的各个GPU服务器上的GPU资源中，为所述一组线程中的每个线程分配允许使用的N个GPU资源，其中，所述GPU服务器集群包括M个GPU服务器，所述M个GPU服务器中的每个 GPU服务器均与一组交换机连接，所述每个 GPU服务器上设置有一组网卡、所述一组网卡中的每个网卡接入所述一组交换机中的不同交换机、所述M个GPU 服务器中的不同GPU服务器上具有相同网卡名称的网卡接入所述一组交换机中的同一交换机，所述一组网卡中的每个网卡与所在的GPU服务器上的一组GPU资源对应， M为正整数，所权　利　要　求　书 2/3 页 3 CN 115509749 A 3

专利 任务执行方法和装置、存储介质和电子设备

专利任务执行方法和装置、存储介质和电子设备