说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211229470.6 (22)申请日 2022.10.09 (71)申请人 京东科技信息技 术有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一街18号院2号楼6层 601 (72)发明人 杨海波 张春阳 包娥 于国胜  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 梁军丽 (51)Int.Cl. G06F 9/48(2006.01) G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于集群的模型训练方法、 系统、 设备、 介质 及产品 (57)摘要 本公开提供一种基于集群的模 型训练方法、 系统、 设备、 介质及产品, 方法包括: 获取目标模 型训练任务, 目标模型训练任务包括: 任务配置 参数、 模型训练数据和初始模型; 确定与初始模 型对应的模型训练框架, 其中, 预存有至少一个 模型训练框架; 在集群中创建与任务配置参数对 应的资源调度单元; 将模型训练框架、 模型训练 数据和初始模 型部署在资源调度单元; 运行资源 调度单元, 以基于模型训练框架, 利用模型训练 数据对初始模型进行训练, 得到目标模型。 本公 开用以解决现有技术中模型训练存在的不易管 理、 过程繁琐和操作复杂度高等缺陷, 实现自动 进行模型的训练。 权利要求书2页 说明书9页 附图3页 CN 115525413 A 2022.12.27 CN 115525413 A 1.一种基于集群的模型训练方法, 其特 征在于, 包括: 获取目标模型训练任务, 所述目标模型训练任务包括: 任务配置参数、 模型训练数据和 初始模型; 确定与所述初始模型对应的模型训练框架, 其中, 预存有至少一个所述模型训练框架; 在集群中创建与所述任务配置参数对应的资源调度单 元; 将所述模型训练框架、 所述模型训练数据和所述初始模型部署在所述资源调度单 元; 运行所述资源调度单元, 以基于所述模型训练框架, 利用所述模型训练数据对所述初 始模型进行训练, 得到目标模型。 2.根据权利要求1所述的基于集群的模型训练方法, 其特征在于, 所述任务配置参数包 括: 训练方式, 所述训练方式包括: 单机训练方式和分布式训练方式; 所述在集群中创建与所述任务配置参数对应的资源调度单 元, 包括: 当所述训练方式为所述单机训练方式时, 在所述 集群中创建一个所述资源调度单 元; 当所述训练方式为所述分布式训练方式时, 在所述集群中创建与所述任务配置参数中 的运行服 务参数对应的多个所述资源调度单 元。 3.根据权利要求1或2所述的基于集群的模型训练方法, 其特征在于, 所述运行所述资 源调度单 元之后, 还 包括: 监控所述资源调度单 元的运行状态; 当所述资源调度单 元的所述 运行状态为执 行成功时, 确定所述目标模型训练完成; 当所述资源调度单 元的所述 运行状态为执 行失败时, 停止运行 所述资源调度单 元。 4.根据权利要求1或2所述的基于集群的模型训练方法, 其特征在于, 得到目标模型之 后, 还包括: 删除所述资源调度单 元。 5.根据权利要求1或2所述的基于集群的模型训练方法, 其特征在于, 所述获取目标模 型训练任务之前, 还 包括: 获取至少一个模型训练任务, 并将所述模型训练任务插 入至任务队列; 所述获取目标模型训练任务, 包括: 将最早进入所述任务队列的模型训练任务作为所述目标模型训练任务。 6.根据权利要求1或2所述的基于集群的模型训练方法, 其特征在于, 所述模型训练数 据包括: 模型训练逻辑和模型训练样本; 所述运行所述资源调度单元, 以基于所述模型训练框架, 利用所述模型训练数据对所 述初始模型进行训练, 得到目标模型, 包括: 运行所述资源调度单元, 以基于所述模型训练框架, 利用所述模型训练逻辑和所述模 型训练样本对所述初始模型进行训练, 得到所述目标模型。 7.一种基于集群的模型训练系统, 其特征在于, 包括: 用户接口模块、 框架管理模块、 任 务管理模块和底层支持模块, 所述用户接口模块与所述任务管理模块连接, 所述任务管理 模块和所述框架管理模块连接, 所述任务管理模块和所述框架管理模块分别与所述底层支 持模块连接; 所述任务管理模块, 用于接收通过所述用户接口模块发送的目标模型训练任务, 所述 目标模型训练任务包括: 任务配置参数、 模型训练数据和初始模型;权 利 要 求 书 1/2 页 2 CN 115525413 A 2所述框架管理模块, 用于确定与所述初始模型对应的模型训练框架; 在所述底层支持 模块中的集群中创建与所述任务配置参数对应的资源调度单元; 将所述模型训练框架、 所 述模型训练数据和所述初始模型部署在所述资源调度单元, 其中, 所述框架管理模块预存 有至少一个所述模型训练框架; 所述任务管理模块, 还用于运行所述资源调度 单元, 以基于所述模型训练框架, 利用所 述模型训练数据对所述初始模型进行训练, 得到目标模型。 8.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6任一项所 述的基于集群的模型训练方法。 9.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机 程序被处 理器执行时实现如权利要求1至 6任一项所述的基于集群的模型训练方法。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至 6任一项所述的基于集群的模型训练方法。权 利 要 求 书 2/2 页 3 CN 115525413 A 3

.PDF文档 专利 基于集群的模型训练方法、系统、设备、介质及产品

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于集群的模型训练方法、系统、设备、介质及产品 第 1 页 专利 基于集群的模型训练方法、系统、设备、介质及产品 第 2 页 专利 基于集群的模型训练方法、系统、设备、介质及产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:13:21上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。