专利训练任务的管理方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211203943.5 (22)申请日 2022.09.29 (71)申请人上海商汤科技开发有限公司地址 201306 上海市中国（上海）自由贸易试验区临港新片区环湖西二路888号C 楼 (72)发明人李青坪　吴保东　严吕超　李睿　郝日威　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 专利代理师王文红 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称训练任务的管理方法、装置、电子设备及存储介质 (57)摘要本公开提供了一种训练任务的管理方法、装置、电子设备及存储介质，其中，该方法包括：响应于任务创建指令，展示任务创建界面，任务创建界面包含用于创建目标训练任务的多个任务配置选项；响应于针对多个任务配置选项的选填操作，获取目标训练任务的任务属性信息以及获取资源属性信息；资源属性信息包括执行目标训练任务所需要的目标资源池，资源池用于指示执行目标训练任务所对应的目标数据设备集群中的一组目标数据设备；在虚拟资源池中创建第一任务对象以存储任务属性信息以及资源属性信息；第一任务对象用于指示目标数据设备集群中的目标数据设备执行目标训练任务的训练操作。本公开实施例，可以提升训练任务在多集群下的部署效率和准确度。权利要求书3页说明书15页附图6页 CN 115543534 A 2022.12.30 CN 115543534 A 1.一种训练任务的管理方法，其特征在于，包括：响应于任务创建指令，展示任务创建界面，所述任务创建界面包含用于创建目标训练任务的多个任务配置选项；响应于针对所述多个任务配置选项的选填操作，获取所述目标训练任务的任务属性信息以及获取资源属性信息；其中，所述资源属性信息包括执行所述目标训练任务所需要的目标资源池，所述资源池用于指示执行所述目标训练任务所对应的目标数据设备集群中的一组目标数据设备；响应于训练任务启动指令，确定与所述目标资源池对应的虚拟资源池，并在所述虚拟资源池中创建第一任务对象以存储所述任务属性信息以及所述资源属性信息；所述第一任务对象用于指示所述目标数据设备集群中的目标数据设备执行所述目标训练任务的训练操作。 2.根据权利要求1所述的方法，其特征在于，所述任务创建界面包含资源池选择配置项，所述获取资源属性信息，包括：获取目标用户的身份信息，并基于目标用户的身份信息确定与所述目标用户关联的至少一个资源池；响应于所述目标用户针对所述资源池选择配置项的选择操作，从所述至少一个资源池中确定所述目标资源池。 3.根据权利要求1所述的方法，其特征在于，所述任务创建界面包含容器资源类型配置项，所述资源属性信息还包括资源类型，所述获取所述资源属性信息包括：基于目标用户针对所述容器资源类型配置项填写确定操作，从所述目标资源池中确定执行所述目标训练任务所需要的资源类型；其中，所述资源类型包括中央处理器资源、图形处理器资源以及内存资源中的至少一种。 4.根据权利要求1所述的方法，其特征在于，所述任务属性信息至少包括：所述目标训练任务的名称、执行所述目标训练任务所需要的框架相关信息、执行所述目标训练任务所需要的镜像文件以及所述目标训练任务的启动命令。 5.根据权利要求4所述的方法，其特征在于，通过以下方式获取所述目标训练任务的框架相关信息：确定目标用户是否选择开启信息传递接口MPI以及确定所确定的深度学习框架；基于是否开启所述MPI以及所确定的深度学习框架，确定所述目标训练任务所使用容器的容器角色。 6.根据权利要求5所述的方法，其特征在于，所述基于是否开启所述MPI以及所确定的深度学习框架，确定所述目标训练任务所使用容器的容器角色，包括：响应于开启所述MPI，基于所述目标用户选择PyTorch深度学习框架和TensorFlow深度学习框架其中任一，确定所述容器的容器角色为启动节点Launcher和工作节点worker；或者，响应于不开启所述MPI，基于不同的深度学习框架与不同的分布式架构的组合确定所述容器的容器角色。 7.根据权利要求6所述的方法，其特征在于，所述基于不同的深度学习框架与不同的分布式架构的组合确定所述容器的容器角色，包括：权　利　要　求　书 1/3 页 2 CN 115543534 A 2在所述目标用户所确定的深度学习框架为TensorFlow框架且所选择的分布式架构为参数服务器架构的情况下，确定所述容器的容器角色为参数服务器节点和工作节点；或者，在所述目标用户所确定的深度学习框架为TensorFlow框架且选择的分布式架构为All Reduce分布式架构的情况下，确定所述容器的容器角色为工作节点；或者，在所述目标用户所确定的深度学习框架为PyTorch框架且选择的分布式架构为All Reduce分布式架构的情况下，确定所述容器的容器角色为主节点和工作节点。 8.根据权利要求1 ‑7任一所述的方法，其特征在于，所述方法还包括：响应于针对所述目标训练任务的状态查询指令，展示所述目标训练任务的执行状态。 9.一种训练任务的管理方法，其特征在于，包括：响应于监听到目标虚拟资源池中存在第一任务对象，从所述目标虚拟资源池中获取所述第一任务对象，并将所述第一任务对象转换成目标数据设备集群能够识别的第二任务对象；其中，所述第一任务对象用于指示所述目标数据设备集群中的一组目标数据设备执行所述目标训练任务的训练操作；响应于创建所述第二任务对象，基于所述目标训练任务的任务属性信息以及获取资源属性信息，创建执行所述目标训练任务所使用的至少一个目标容器；所述任务属性信息以及获取资源属性信息通过响应于任务创建界面的各个任务配置选项的选填操作而生成；通过所述目标数据设备集群中的调度器将所述至少一个目标容器调度至所述一组目标数据设备上运行，以执行所述目标训练任务的训练操作。 10.一种训练任务的管理装置，其特征在于，包括：界面展示模块，用于响应于任务创建指令，展示任务创建界面，所述任务创建界面包含用于创建目标训练任务的多个任务配置选项；信息获取模块，用于响应于针对所述多个任务配置选项的选填操作，获取所述目标训练任务的任务属性信息以及获取资源属性信息；其中，所述资源属性信息包括执行所述目标训练任务所需要的目标资源池，所述资源池用于指示执行所述目标训练任务所对应的目标数据设备集群中的一组目标数据设备；对象创建模块，用于响应于训练任务启动指令，确定与所述目标资源池对应的虚拟资源池，并在所述虚拟资源池中创建第一任务对象以存储所述任务属性信息以及所述资源属性信息；所述第一任务对象用于指示所述目标数据设备集群中的目标数据设备执行所述目标训练任务的训练操作。 11.一种训练任务的管理装置，其特征在于，包括：对象转换模块，用于响应于监听到目标虚拟资源池中存在第一任务对象，从所述目标虚拟资源池中获取所述第一任务对象，并将所述第一任务对象转换成目标数据设备集群能够识别的第二任务对象；其中，所述第一任务对象用于指示所述目标数据设备集群中的一组目标数据设备执行所述目标训练任务的训练操作；容器创建模块，用于响应于创建所述第二任务对象，基于所述目标训练任务的任务属性信息以及获取资源属性信息，创建执行所述目标训练任务所使用的至少一个目标容器；所述任务属性信息以及获取资源属性信息通过响应于任务创建界面的各个任务配置选项的选填操作而生成；容器调度模块，用于通过目标数据设备集群中的调度器将所述至少一个目标容器调度权　利　要　求　书 2/3 页 3 CN 115543534 A 3

专利 训练任务的管理方法、装置、电子设备及存储介质

专利训练任务的管理方法、装置、电子设备及存储介质