说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211203943.5 (22)申请日 2022.09.29 (71)申请人 上海商汤科技 开发有限公司 地址 201306 上海市中国 (上海) 自由贸易 试验区临港新片区环湖西二路888号C 楼 (72)发明人 李青坪 吴保东 严吕超 李睿  郝日威  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 专利代理师 王文红 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/50(2006.01) G06N 3/08(2006.01) (54)发明名称 训练任务的管理方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提供了一种训练任务的管 理方法、 装 置、 电子设备及存储介质, 其中, 该方法包括: 响 应于任务创建指令, 展示任务创建界面, 任务创 建界面包含用于创建目标训练任务的多个任务 配置选项; 响应于针对多个任务配置选项的选填 操作, 获取目标训练任务的任务属性信息以及获 取资源属性信息; 资源属性信息包括执行目标训 练任务所需要的目标资源池, 资源池用于指示执 行目标训练任务所对应的目标数据设备集群中 的一组目标数据设备; 在虚拟资源池中创建第一 任务对象以存储任务属性信息以及资源属性信 息; 第一任务对象用于指示目标数据设备集群中 的目标数据设备执行目标训练任务的训练操作。 本公开实施例, 可以提升训练任务在多集群下的 部署效率和准确度。 权利要求书3页 说明书15页 附图6页 CN 115543534 A 2022.12.30 CN 115543534 A 1.一种训练任务的管理方法, 其特 征在于, 包括: 响应于任务创建指令, 展示任务创建界面, 所述任务创建界面包含用于创建目标训练 任务的多个任务配置 选项; 响应于针对所述多个任务配置选项的选填操作, 获取所述目标训练任务的任务属性信 息以及获取资源属 性信息; 其中, 所述资源属 性信息包括执行所述 目标训练任务所需要的 目标资源池, 所述资源池用于指示执行所述目标训练任务所对应的目标数据设备集群中的 一组目标 数据设备; 响应于训练任务启动指令, 确定与所述目标资源池对应的虚拟资源池, 并在所述虚拟 资源池中创建第一任务对象以存储所述任务属性信息以及所述资源属性信息; 所述第一任 务对象用于指示所述目标数据设备集群中的目标数据设备执行所述目标训练任务的训练 操作。 2.根据权利要求1所述的方法, 其特征在于, 所述任务创建界面包含资源池选择配置 项, 所述获取资源属性信息, 包括: 获取目标用户的身份信 息, 并基于目标用户的身份信 息确定与 所述目标用户关联的至 少一个资源 池; 响应于所述目标用户针对所述资源池选择配置项的选择操作, 从所述至少一个资源池 中确定所述目标资源 池。 3.根据权利要求1所述的方法, 其特征在于, 所述任务创建界面包含容器资源类型配置 项, 所述资源属性信息还 包括资源类型, 所述获取 所述资源属性信息包括: 基于目标用户针对所述容器资源类型配置项填写确定操作, 从所述目标资源池中确定 执行所述目标训练任务所需要的资源类型; 其中, 所述资源类型包括中央处理器资源、 图形 处理器资源以及内存资源中的至少一种。 4.根据权利要求1所述的方法, 其特征在于, 所述任务属性信息至少包括: 所述目标训 练任务的名称、 执行所述 目标训练任务所需要的框架相关信息、 执行所述 目标训练任务所 需要的镜像文件以及所述目标训练任务的启动命令 。 5.根据权利要求4所述的方法, 其特征在于, 通过以下方式获取所述目标训练任务的框 架相关信息: 确定目标用户是否 选择开启信息传递接口MPI以及确定所确定的深度学习框架; 基于是否开启所述MPI以及所确定的深度学习框架, 确定所述目标训练任务所使用容 器的容器角色。 6.根据权利要求5所述的方法, 其特征在于, 所述基于是否开启所述MPI以及所确定的 深度学习框架, 确定所述目标训练任务所使用容器的容器角色, 包括: 响应于开启所述MPI, 基于所述目标用户选择PyTorch深度学习框架和TensorFlow深度 学习框架其中任一, 确定所述容器的容器角色为启动节点Launcher和工作节点worker; 或 者, 响应于不开启所述MPI, 基于不同的深度学习框架与不同的分布式架构的组合确定所 述容器的容器角色。 7.根据权利要求6所述的方法, 其特征在于, 所述基于不同的深度 学习框架与不同的分 布式架构的组合确定所述 容器的容器角色, 包括:权 利 要 求 书 1/3 页 2 CN 115543534 A 2在所述目标用户所确定的深度学习框架为TensorFlow框架且所选择的分布式架构为 参数服务器架构的情况 下, 确定所述 容器的容器角色为 参数服务器节点和工作节点; 或者, 在所述目标用户所确定的深度学习框架为TensorFlow框架且选择的分布式架构为All   Reduce分布式架构的情况 下, 确定所述 容器的容器角色为工作节点; 或者, 在所述目标用户所确定的深度学习框架为PyTorch框架且选择的分布式架构为All   Reduce分布式架构的情况 下, 确定所述 容器的容器角色为主节点和工作节点。 8.根据权利要求1 ‑7任一所述的方法, 其特 征在于, 所述方法还 包括: 响应于针对所述目标训练任务的状态查询指令, 展示所述目标训练任务的执 行状态。 9.一种训练任务的管理方法, 其特 征在于, 包括: 响应于监 听到目标虚拟资源池中存在第 一任务对象, 从所述目标虚拟资源池中获取所 述第一任务对象, 并将所述第一任务对象转换成目标数据设备集群能够识别的第二任务对 象; 其中, 所述第一任务对 象用于指示所述 目标数据设备集群中的一组目标数据设备执行 所述目标训练任务的训练操作; 响应于创建所述第 二任务对象, 基于所述目标训练任务的任务属性信 息以及获取资源 属性信息, 创建执行所述 目标训练任务所使用的至少一个目标容器; 所述任务属 性信息以 及获取资源属性信息通过响应于任务创建界面的各个任务配置 选项的选填操作而生成; 通过所述目标数据设备集群中的调度器将所述至少一个目标容器调度至所述一组目 标数据设备 上运行, 以执 行所述目标训练任务的训练操作。 10.一种训练任务的管理装置, 其特 征在于, 包括: 界面展示模块, 用于响应于任务创建指令, 展示任务创建界面, 所述任务创建界面包含 用于创建目标训练任务的多个任务配置 选项; 信息获取模块, 用于响应于针对所述多个任务配置选项的选填操作, 获取所述目标训 练任务的任务属 性信息以及获取资源属 性信息; 其中, 所述资源属 性信息包括执行所述 目 标训练任务所需要的目标资源池, 所述资源池用于指示执行所述目标训练任务所对应的目 标数据设备集群中的一组目标 数据设备; 对象创建模块, 用于响应于训练任务启动指令, 确定与所述目标资源池对应的虚拟资 源池, 并在所述虚拟资源池中创建第一任务对象以存储所述任务属性信息以及所述资源属 性信息; 所述第一任务对象用于指示所述目标数据设备集群中的目标数据设备执行所述目 标训练任务的训练操作。 11.一种训练任务的管理装置, 其特 征在于, 包括: 对象转换模块, 用于响应于监听到目标虚拟资源池中存在第一任务对象, 从所述目标 虚拟资源池中获取所述第一任务对象, 并将所述第一任务对象转换成目标数据设备集群能 够识别的第二任务对 象; 其中, 所述第一任务对 象用于指示所述 目标数据设备集群中的一 组目标数据设备 执行所述目标训练任务的训练操作; 容器创建模块, 用于响应于创建所述第二任务对象, 基于所述目标训练任务的任务属 性信息以及获取资源属 性信息, 创建执行所述 目标训练任务所使用的至少一个目标容器; 所述任务属 性信息以及获取资源属 性信息通过响应于任务创建界面的各个任务配置选项 的选填操作而生成; 容器调度模块, 用于通过目标数据设备集群中的调度器将所述至少一个目标容器调度权 利 要 求 书 2/3 页 3 CN 115543534 A 3

.PDF文档 专利 训练任务的管理方法、装置、电子设备及存储介质

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练任务的管理方法、装置、电子设备及存储介质 第 1 页 专利 训练任务的管理方法、装置、电子设备及存储介质 第 2 页 专利 训练任务的管理方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:15:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。