专利一种面向HPC与AI融合计算的融合平台及其资源管理方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211034492.7 (22)申请日 2022.08.26 (65)同一申请的已公布的文献号申请公布号 CN 115102851 A (43)申请公布日 2022.09.23 (73)专利权人合肥综合性国家科学中心人工智能研究院（安徽省人工智能实验室）地址 230000 安徽省合肥市高新区望江西路5089号，中国科学技术大学先进技术研究院未来中心B120 5-B1208 (72)发明人郑烇　金庭宇　李峥　陈双武　杨坚　杨锋　(74)专利代理机构合肥天明专利事务所(普通合伙) 34115 专利代理师金凯　谢中用 (51)Int.Cl. H04L 41/0803(2022.01) H04L 67/10(2022.01) H04L 67/60(2022.01) G06F 9/50(2006.01) G06F 9/455(2006.01) 审查员李珍珍 (54)发明名称一种面向HPC与AI融合计算的融合平台及其资源管理方法 (57)摘要本发明涉及融合计算系统领域，公开了一种面向HPC与AI融合计算的融合平台及其资源管理方法，使用容器化的方法将Slurm平台融合到 Kubernetes平台中得到融合平台，并通过资源管理方法对融合平台的HPC集群和AI集群资源进行分配；融合平台包括客户端、控制节点、计算节点；在HPC集群和AI集群运行时，如果需要计算节点X的资源配置，通过所述的资源管理方法实现资源的重分配，改善了现有的融合平台中集群资源隔离和浪费问题，提高了集群平均资源利用率。权利要求书1页说明书8页附图5页 CN 115102851 B 2022.11.08 CN 115102851 B 1.一种面向HPC与AI融合计算的融合平台，使用容器化的方法将Slurm平台融合到 Kubernetes平台中，其特征在于，融合平台包括：客户端，供用户提交HPC任务和AI任务；控制节点，运行有Kubernetes平台的各控制组件，以及除节点监控进程slurmd外的 Slurm平台的各控制组件；计算节点，包括属于HPC集群的pod单元A和属于AI集群的pod单元B， pod单元A内的资源属于HPC集群， pod单元B内的资源属于AI集群； HPC集群的节点监控进程slurmd 以容器形式运行在pod单元A中。 2.一种如权利要求1所述的面向HPC与AI融合计算的融合平台的资源管理方法，对融合平台的HPC集群和A I集群资源进行分配，其特征在于：在HP C集群和AI集群运行时，如果需要调整计算节点X的资源配置，通过所述的资源管理方法实现资源的重分配，包括以下步骤：步骤一：修改计算节点X的资源配置，并在计算节点X内pod单元A重启前使资源配置生效；步骤二：判断重启pod单元A时计算节点X内是否有足够资源；如是，运行步骤三；如否，运行步骤四；步骤三：为计算节点X设置N oSchedule污点；步骤四：为计算节点X设置N oExecute污点；步骤五：删除pod单元A后重启pod单元A； HPC集群和重启后的节点监控进程slurm d建立连接后，删除计算节点X 上的污点。 3.根据权利要求2所述的面向HPC与AI融合计算的融合平台的资源管理方法，其特征在于：当HPC集群对应的计算节点X失联时，计算节点X上运行的任务会从running状态转为 pending状态，加入任务队列重新调度；步骤五中在pod单元A删除前需要记录计算节点X内运行的HPC任务，在pod单元A重启后，若HPC任务仍在pending状态，则将该HPC任务放到任务队列队首；当AI集群对应的计算节点X 无法执行任务时，根据需要重启AI任务。 4.根据权利要求2所述的面向HPC与AI融合计算的融合平台的资源管理方法，其特征在于：步骤四中为计算节点X设置NoEx ecute污点前，判断计算节点X内是否有需要手动重启的 pod单元B；如有，则需要备份pod单元B的资源配置文件。权　利　要　求　书 1/1 页 2 CN 115102851 B 2一种面向HPC与AI融合计算的融合平台及其资源管理方法技术领域 [0001]本发明涉及融合计算系统领域，具体涉及一种面向HPC与AI融合计算的融合平台及其资源管理方法。背景技术 [0002]近些年AI训练对计算能力的需求日益，从AlexNet到AlphaGoZero计算量上增长了 30万倍。而HPC可以给AI计算提供算力支持。另一方面， AI模型在材料科学、生命科学和大气海洋等HPC应用领域发挥越来越重要的作用，推动HPC计算领域的科学发现，帮助人们进一步理解科学问题。因此， HPC和AI的融合需求愈发强烈。 [0003]高性能计算（High Performance Computing， HPC）和AI两个集群的资源管理是融合必须考虑的问题。新华三和英特尔分别提出了各自的HPC ‑AI融合平台产品，在解决资源管理问题上，它们都将物理机集群以节点为单位划分为HPC 分区和AI分区。但是本质上资源还是隔离的，当使用通用计算节点时，会有两类原因造成节点计算资源的浪费： [0004]第一类是由于某段时间内任务提交量少，即集群工作存在闲时造成的资源浪费。 [0005]第二类是由于通用计算节点无法应对HPC与AI资源需求差异造成的资源浪费， HPC 与AI资源需求差异主要是由其应用场景差异造成的。 [0006]传统的高性能计算，核心操作是各类方程组的求解计算，以CPU计算为核心。多数 HPC的资源管理器采用排他的方法进行资源的调度即当有CPU作业占用节点资源时，会存在空闲的GPU无法被调度，导致GPU资源的浪费。 [0007]另外AI训练过程是一种典型的计算密集型应用， AI资源调度以GPU为核心，相对更强调GPU的公平性、亲和性和利用率，将导致CPU资源的浪费。发明内容 [0008]为解决上述技术问题，本发明提供一种面向HPC与AI融合计算的融合平台及其资源管理方法。 [0009]为解决上述技术问题，本发明采用如下技术方案： [0010]一种面向HPC与AI融合计算的融合平台，使用容器化的方法将Slurm平台融合到 Kubernetes平台中，融合平台包括： [0011]客户端，供用户提交计算任务； [0012]控制节点，运行有Kubernetes平台的各控制组件，以及除节点监控进程slurmd外的Slurm平台的各控制组件； [0013]计算节点，包括属于HPC集群的pod单元A和属于AI集群的pod单元B， pod单元A内的资源属于HPC集群， po d单元B内的资源属于AI集群； HPC集群的节点监控进程slurmd 以容器形式运行在pod单元A中；事实上，不仅pod单元B内的资源属于AI集群， pod单元A外的资源均属于AI集群。 [0014]一种面向HPC与AI融合计算的融合平台的资源管理方法，对融合平台的HPC集群和说　明　书 1/8 页 3 CN 115102851 B 3

专利 一种面向HPC与AI融合计算的融合平台及其资源管理方法

专利一种面向HPC与AI融合计算的融合平台及其资源管理方法