说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211034492.7 (22)申请日 2022.08.26 (65)同一申请的已公布的文献号 申请公布号 CN 115102851 A (43)申请公布日 2022.09.23 (73)专利权人 合肥综合 性国家科 学中心人工智 能研究院 (安徽省人工智能实验 室) 地址 230000 安徽省合肥市高新区望江西 路5089号, 中国科学技术大学先进技 术研究院未来中心B120 5-B1208 (72)发明人 郑烇 金庭宇 李峥 陈双武  杨坚 杨锋 (74)专利代理 机构 合肥天明专利事务所(普通 合伙) 34115 专利代理师 金凯 谢中用 (51)Int.Cl. H04L 41/0803(2022.01) H04L 67/10(2022.01) H04L 67/60(2022.01) G06F 9/50(2006.01) G06F 9/455(2006.01) 审查员 李珍珍 (54)发明名称 一种面向HPC与AI融合计算的融合平台及其 资源管理方法 (57)摘要 本发明涉及融合计算系统领域, 公开了一种 面向HPC与AI融合计算的融合平台及其 资源管理 方法, 使用容器化的方法将Slurm平台融合到 Kubernetes平台中得到融合平台, 并通过资源管 理方法对融合平台的HPC集群和AI集群资源进行 分配; 融合平台包括客户端、 控制节点、 计算节 点; 在HPC集群和AI集群运行时, 如果需要计算节 点X的资源配置, 通过所述的资源管理方法实现 资源的重分配, 改善了 现有的融合平台中集群资 源隔离和浪费问题, 提高了集群平均资源利用 率。 权利要求书1页 说明书8页 附图5页 CN 115102851 B 2022.11.08 CN 115102851 B 1.一种面向HPC与AI融合计算的融合平台, 使用容器化的方法将Slurm平台融合到 Kubernetes平台 中, 其特征在于, 融合平台包括: 客户端, 供用户提交HPC任务和AI任务; 控制节点, 运行有Kubernetes平台的各控制组件, 以及除节点监控进程slurmd外的 Slurm平台的各控制组件; 计算节点, 包括属于HPC集群的pod单元A和属于AI集群的pod单元B, pod单元A内的资源 属于HPC集群, pod单元B内的资源属于AI集群; HPC集群的节点监控进程slurmd 以容器形式 运行在pod单元A中。 2.一种如权利要求1所述的面向HPC与AI融合计算的融合平台的资源管理方法, 对融合 平台的HPC集群和A I集群资源进行分配, 其特征在于: 在HP C集群和AI集群运行时, 如果需要 调整计算节点X的资源配置, 通过 所述的资源管理方法实现资源的重分配, 包括以下步骤: 步骤一: 修改计算节点X的资源配置, 并在计算节点X内pod单元A重启前使资源配置生 效; 步骤二: 判断重启pod单元A时计算节点X内是否有足够资源; 如是, 运行步骤三; 如否, 运行步骤四; 步骤三: 为计算节点X设置N oSchedule污点; 步骤四: 为计算节点X设置N oExecute污点; 步骤五: 删除pod单元A后重启pod单元A; HPC集群和重启后的节点监控进程slurm d建立 连接后, 删除计算节点X 上的污点。 3.根据权利要求2所述的面向HPC与AI融合计算的融合平台的资源管理方法, 其特征在 于: 当HPC集群对应的计算节点X失联时, 计算节点X上运行的任务会从running状态转为 pending状态, 加入任务队列重新调度; 步骤五中在pod单元A删除前需要记录计算节点X内 运行的HPC任务, 在pod单元A重启后, 若HPC任务仍在pending状态, 则将该HPC任务放到任务 队列队首; 当AI集群对应的计算节点X 无法执行任务时, 根据需要重启AI任务。 4.根据权利要求2所述的面向HPC与AI融合计算的融合平台的资源管理方法, 其特征在 于: 步骤四中为计算节 点X设置NoEx ecute污点前, 判断计算节 点X内是否有需要手动重启的 pod单元B; 如有, 则需要备份pod单 元B的资源配置文件。权 利 要 求 书 1/1 页 2 CN 115102851 B 2一种面向HPC与AI融合计算的融合平台及其资源 管理方法 技术领域 [0001]本发明涉及融合计算系统领域, 具体涉及一种面向HPC与AI融合计算的融合平台 及其资源管理方法。 背景技术 [0002]近些年AI训练对计算能力的需求日益, 从AlexNet到AlphaGoZero计算量上增长了 30万倍。 而HPC可以给AI计算提供算力支持。 另一方面, AI模 型在材料科学、 生命 科学和大气 海洋等HPC应用领域发挥越来越重要的作用, 推动HPC计算领域的科学发现, 帮助人们进一 步理解科 学问题。 因此, HPC和AI的融合需求愈发 强烈。 [0003]高性能计算 (High  Performance  Computing, HPC) 和AI两个集群的资源管理是融 合必须考虑的问题。 新华三和 英特尔分别提出了各自的HPC ‑AI融合平台产品, 在解决资源 管理问题上, 它们都将物理机集群以节点为单位划分为HPC 分区和AI分区。 但是本质上资源 还是隔离的, 当使用通用计算节点时, 会有两类原因造成节点计算资源的浪费: [0004]第一类是由于某段时间内任务 提交量少, 即集群工作存在闲时造成的资源浪费。 [0005]第二类是由于通用计算节点无法应对HPC与AI资源需求差异造成的资源浪费, HPC 与AI资源需求差异主 要是由其应用场景差异造成的。 [0006]传统的高性能计算, 核心操作是各类方程组的求解计算, 以CPU计算为核心。 多数 HPC的资源管理器采用排他的方法进 行资源的调 度即当有CPU作业占用节 点资源时, 会存在 空闲的GPU无法被调度, 导 致GPU资源的浪费。 [0007]另外AI训练过程是一种典型的计算密集型应用, AI资源调度以GPU为核心, 相对更 强调GPU的公平性、 亲和性和利用率, 将导 致CPU资源的浪费。 发明内容 [0008]为解决上述技术问题, 本发明提供一种面向HPC与AI融合计算的融合平台及其资 源管理方法。 [0009]为解决上述 技术问题, 本发明采用如下技 术方案: [0010]一种面向HPC与AI融合计算的融合平台, 使用容器化的方法将Slurm平台融合到 Kubernetes平台 中, 融合平台包括: [0011]客户端, 供用户提交计算任务; [0012]控制节点, 运行有Kubernetes平台的各控制组件, 以及除节点监控进程slurmd外 的Slurm平台的各控制组件; [0013]计算节点, 包括属于HPC集群的pod单元A和属于AI集群的pod单元B, pod单元A内的 资源属于HPC集群, po d单元B内的资源属于AI集群; HPC集群的节点监控进程slurmd 以容器 形式运行在pod单元A中; 事实上, 不仅pod单元B内的资源属于AI集群, pod单元A外的资源均 属于AI集群。 [0014]一种面向HPC与AI融合计算的融合平台的资源管理方法, 对融合平台的HPC集群和说 明 书 1/8 页 3 CN 115102851 B 3

.PDF文档 专利 一种面向HPC与AI融合计算的融合平台及其资源管理方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向HPC与AI融合计算的融合平台及其资源管理方法 第 1 页 专利 一种面向HPC与AI融合计算的融合平台及其资源管理方法 第 2 页 专利 一种面向HPC与AI融合计算的融合平台及其资源管理方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:11:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。