说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 20221090181 1.3 (22)申请日 2022.07.28 (65)同一申请的已公布的文献号 申请公布号 CN 114968601 A (43)申请公布日 2022.08.30 (73)专利权人 合肥中科类脑智能技 术有限公司 地址 230000 安徽省合肥市高新区中科 大 先进技术研究院嵌入式一号研发楼3 楼 (72)发明人 肖玉 常峰 朱建 王景祥 胡安  王子磊 刘海峰  (74)专利代理 机构 上海市锦天城律师事务所 31273 专利代理师 陆少凡(51)Int.Cl. G06F 9/50(2006.01) H04L 67/1012(2022.01) H04L 67/1008(2022.01) (56)对比文件 CN 109885389 A,2019.0 6.14 US 2021382728 A1,2021.12.09 审查员 阳升 (54)发明名称 一种按比例预留资源的AI训练作业的调度 方法和调度系统 (57)摘要 本发明公开了一种按比例预留资源的AI训 练作业的调度方法和调度系统, 所述调度方法包 括一预选阶段和一优选阶段, 用户通过比例调度 模块设置一比例, 将第一资源、 第二资源和第三 资源按照比例为1: P: Q进行设定; 获取一节点服 务器中第一 资源、 第二资源和第三资源分别对应 的总资源数量及识别训练作业, 假定调度所述训 练作业后, volcano调度器判断所述节点服务器 剩余资源数量是否可以满足所述各资源之间的 所述比例, 筛选出所述节点中剩余各资源之间满 足所述比例的节点, 将所选出的符合条件的节点 进入优选阶段, 选出最优的节点处理训练作业。 本发明用于提升集群高价值主要资源的利用率 以及减少资源的碎片化。 权利要求书3页 说明书10页 附图4页 CN 114968601 B 2022.11.08 CN 114968601 B 1.一种按比例预留资源的AI训练作业的调度方法, 其特征在于, 所述方法包括以下步 骤: 步骤S1: 用户通过比例调度模块设置一比例, 将第一资源、 第 二资源和第三资源按照比 例为1: P: Q进行设定, 其中, 1≤P≤Q, 第一资源的主次高于第二资源和第三资源; 步骤S2: 获取一节点 服务器中第一资源、 第二资源和第三资源分别对应的总资源数量; 步骤S3: 所述节点 服务器识别一训练作业; 步骤S4: 所述节点服务器计算所述训练作业所需消耗的第一资源、 第二资源和第三资 源的数量; 步骤S5: 假定调度所述训练作业后, 计算所述节点服务器在调度该训练作业后剩余的 第一资源、 第二资源和第三资源的数量, volcano调度器判断所述节点服务器剩余资源 数量 是否可以满足第一资源: 第二资源: 第三资源之间的比例为1: P: Q, 1≤P≤Q, 其中, 所述第二 资源和所述第三资源可以存在剩余; 或者volcano调度器判断所述节点服务器剩 余资源是 否为第一资源等于 0且第二资源、 第三资源大于等于 0; 步骤S6: 如果步骤S5判断结果为是, 则所述节点服务器进入一优选阶段, 如果在优选阶 段所述节点服务器得分最高, 则调 度该训练作业, 在调度所述训练作业后, 当有新的训练作 业被识别, 则重复步骤S4和步骤S5; 如果步骤S5判断结果为否, 则所述训练作业在该节点服务器不被调度, 若新的训练作 业被识别 则重复步骤S4和步骤S5 。 2.根据权利要求1所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 其中 第一资源 包括GPU, 第二资源 包括CPU, 第三资源 包括内存, 所述节点 服务器至少包括两个。 3.根据权利要求1所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 步骤 S3中所述训练作业包括第一训练作业、 第二训练作业 ……第N训练作业, 其中N为大于等于1 的整数, 调度所述第N训练作业会将所述第一资源完全消耗完 。 4.根据权利要求1所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 所述 比例调度模块的名称写在volcano配置文件对应的调度插件的位置, 以实现比例调度模块 和volcano模块绑定, 并把所述比例调度模块的开关 设置为开的状态。 5.根据权利要求2所述的按比例预留资源的AI训练作业的调度方法, 其特 征在于, 所述调度方法进一步包括: 用户在比例调度模块中设置需要预留的所述GPU、 CPU、 内存 资源之间数量上的所述比例为: GPU: CPU: 内存为1: P: Q, 其中GPU的数量计算单位为卡, CPU 的数量计算单位 为核, 内存的数量计算单位 为GB; 检测集群中所述节点服务器中GPU空闲总资源为G, CPU空闲总资源为C, 内存空闲总资 源为M; 计算所述训练作业所需的资源分别为GPU为G1卡, CPU为C1核, 内存为M1GB; volcano调度器对所述节点剩余资源进行计算并判断是否符合所述比例, 节点各剩余 资源计算如下, 剩余GPU资源: G ‑G1; 剩余CPU资源: C ‑C1  ‑(G  ‑ G1) * P ; 剩余内存: M ‑M1  ‑ (G  ‑  G1) * Q; 如果所述节点剩余GPU、 剩余CPU资源、 剩余内存资源均大于等于0, 则所述节点服务器 进入所述优选阶段, 如果在优选阶段所述节点服务器得分最高, 则该节点服务器调度该训 练作业。权 利 要 求 书 1/3 页 2 CN 114968601 B 26.根据权利要求2所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 第一 资源还进一步包括: 高性能N IC或FPGA或NPU。 7.根据权利要求1所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 所述 节点服务器识别所述训练作业的各资源使用情况的检测组件为kubelet组件, 其中所述 kubelet组件接口用于监控节点资源以及节点的资源使用情况。 8.根据权利要求1所述的按比例预留资源的AI训练作业的调度方法, 其特征在于, 所述 第一资源属于主要资源, 包括GPU资源, 所述第二资源和所述第三资源属于次要资源, 包括 CPU资源或内存 任一者或者两者的组合。 9.一种按比例预留资源的AI训练作业的调度系统, 其特 征在于, 包括: 一比例调度模块, 用于设置一比例, 将第一资源、 第二资源和第三资源按照比例为1: P: Q进行设定, 其中, 1≤P≤Q, 第一资源的主次高于第二资源和第三资源; 一节点服务器, 所述节点服务器用于识别一训练作业; 所述节点服务器用于计算所述 训练作业所需的第一资源、 第二资源和 第三资源以及所述第一资源、 第二资源、 第三资源分 别对应的总资源数量, 且为 一训练作业 提供资源; 一volcano调度器, 计算所述节点 服务器调度所述训练作业后剩余的资源; 假定调度所述训练作业后, 所述volcano调度器计算所述节点服务器在调度该训练作 业后剩余的第一资源、 第二资源和第三资源的数量, 判断所述节点服务器剩余资源数量是 否可以满足第一资源: 第二资源: 第三资源之间的比例为 1: P: Q, 1≤P≤Q, 其中, 所述第二资 源和所述第三资源可以存在剩余; 或者volcano调度器判断所述节点服务器剩余资源是否 为第一资源等于 0且第二资源、 第三资源大于等于 0; 如果判断结果为是, 则所述节点服务器进入一优选阶段, 如果在优选阶段所述节点服 务器得分最高, 则调度该训练作业, 在调度所述训练作业后, 当有新的训练作业被识别, 则 所述节点服务器重新判断所述节点服务器剩余资源数量是否可以满足第一资源: 第二资 源: 第三资源为1: P: Q; 如果判断结果为否, 则所述训练作业在该节点服务器不被调度, 若新的训练作业被识 别则所述节点服务器判断调 度所述新的训练作业后, 所述节点服务器剩余资源数量是否可 以满足第一资源: 第二资源: 第三资源为1: P: Q。 10.根据权利要求9所述的按比例预留资源的AI训练作业的调度系统, 其特征在于, 第 一资源包括GPU, 第二资源 包括CPU, 第三资源 包括内存。 11.根据权利要求9所述的按比例预留资源的AI训练作业的调度系统, 其特征在于, 所 述训练作业包括第一训练作业、 第二训练作业 ……第N训练作业, 其中N为大于等于1的整 数, 调度所述第N训练作业会将所述第一资源完全消耗完 。 12.根据权利要求9所述的按比例预留资源的AI训练作业的调度系统, 所述比例调度模 块的名称需要写在volcano配置文件对应的调度插件的位置, 以实现比例调度模块和 volcano模块绑定, 并把所述比例调度的开关 设置为开的状态, 即启用该比例调度模块。 13.根据权利要求10所述的按比例预留资源的AI训练作业的调度系统, 用户在比例调 度模块中设置所述GPU、 CPU、 内存的空闲资源之间数量上的所述比例为: GPU: CPU: 内存为1: P: Q, 其中GPU的数量计算单位 为卡, CPU的数量计算单位 为核, 内存的数量计算单位 为GB; 检测集群中所述节点服务器中GPU空闲总资源为G, CPU空闲总资源为C, 内存空闲总资权 利 要 求 书 2/3 页 3 CN 114968601 B 3

.PDF文档 专利 一种按比例预留资源的AI训练作业的调度方法和调度系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种按比例预留资源的AI训练作业的调度方法和调度系统 第 1 页 专利 一种按比例预留资源的AI训练作业的调度方法和调度系统 第 2 页 专利 一种按比例预留资源的AI训练作业的调度方法和调度系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:09:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。