(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211148626.8
(22)申请日 2022.09.21
(65)同一申请的已公布的文献号
申请公布号 CN 115237547 A
(43)申请公布日 2022.10.25
(73)专利权人 之江实验室
地址 311121 浙江省杭州市余杭区之江实
验室南湖总部
(72)发明人 高翔 潘爱民 王易围
(74)专利代理 机构 北京志霖恒远知识产权代理
有限公司 1 1435
专利代理师 戴莉
(51)Int.Cl.
G06F 9/455(2006.01)
G06F 9/50(2006.01)(56)对比文件
CN 111614490 A,2020.09.01
CN 107704310 A,2018.02.16
CN 108519 911 A,2018.09.1 1
US 2022075665 A1,202 2.03.10
CN 114500549 A,202 2.05.13
卢胜林等.基 于Docker Swarm集群的调度策
略优化. 《信息技 术》 .2016,(第07期),
赵航等.面向KubeEdge边 缘计算系统应用研
究. 《智能科 学与技术学报》 .202 2,第4卷(第1
期),
Andrei Vlad Postoaca等.h -Fair:
Asymptotic Sc heduling of Heavy W orkloads
in Heterogeneous Data Centers. 《2018 18th
IEEE/ACM Internati onal Symposium o n
Cluster, Cl oud and Grid Computi ng
(CCGRID)》 .2018,
审查员 牛洪波
(54)发明名称
一种非侵入式HPC计算集群的统一容器集群
托管系统和方法
(57)摘要
本发明提供一种非侵入式HPC计算集群的统
一容器集群托管系统和方法, 所述系统包括: 自
定义计算作业资源集、 计算集群管理模块、 计算
集群执行模块以及一个或多个需要被纳管的HPC
计算集群, 所述的计算集群管理模块包括: 控制
器、 配置器、 工作 负载承载器。 当现有环境下存在
两类或多类的容器集群管理系统和面向科学计
算领域的集群管理和作业调度系统的复杂集群
环境下, 本专利提供了一种非侵入式方式构建基
于容器集群管理系统的统一操作管理平面的系
统和方法。
权利要求书2页 说明书7页 附图4页
CN 115237547 B
2022.12.06
CN 115237547 B
1.一种非侵入式HPC计算集群的统一容器集群托管系统, 其特征在于, 包括: 容器集群、
自定义计算作业资源集、 计算集群管理模块、 计算集群执行模块以及一个或多个需要被纳
管的HPC计算 集群;
所述自定义计算作业资源集用于描述一个完整的作业对象或作业对象的集合或可扩
展的Kubernetes自定义资源或任务所需的资源集 合;
所述的计算集群管理模块包括工作负载承载器以及与该工作负载承载器连接的控制
器和配置器;
用户在容器集群提交对自定义作业资源集的操作;
计算集群管理模块监 听自定义资源集的变更, 生成相应的执行指令下发给计算集群执
行模块;
计算集群执行模块根据执行指令生成HPC计算集群实际运行的命令, 并在HPC计算集群
上运行;
所述控制器持续监听所述自定义计算作业资源集的创建、 修改、 删除事件, 继而生成工
作负载对象, 并将工作负载对象提交到所述的容器集群, 并接收容器集群的发现与调度;
所述工作负载承载器是所述HPC计算集群的最小计算资源调度单元的上层抽象, 其用
于伪装成容器集群的一个节点而被容器集群发现, 并参与容器集群的调度, 根据运行在其
上的工作负载生成实际作业执 行指令并发送给 所述计算 集群执行模块;
所述配置器与所述的计算集群执行模块网络交互, 配置器持续监控所述HPC计算集群
的各种软硬件资源信息和当前状态, 并根据收集到的信息动态创建、 销毁、 配置工作负载承
载器。
2.根据权利要求1所述的一种非侵入式HPC计算集群的统一容器集群托管系统, 其特征
在于, 所述计算 集群执行模块还 包括资源感知 层和任务执 行层;
所述的资源感知层, 用于实时获取所述HPC计算集群的软硬件资源状态和任务资源状
态, 并将状态上报给 所述的配置器;
所述的任务执行层, 用于根据 所述工作负载承载器下发的作业执行指令生成并执行所
述HPC计算 集群的实际计算任务。
3.一种非侵入式HPC计算集群的统一容器集群托管方法, 应用于所述权利要求1或2 的
非侵入式HPC计算 集群的统一 容器集群托管系统, 包括以下步骤:
步骤1: 自定义作业资源集接受用户创建、 修改、 删除操作, 并携带操作类型、 命令、 所需
资源信息;
步骤2: 计算集群管理模块监 听自定义作业资源集的变更, 并根据操作类型下发相应的
执行指令到计算集群执行模块;
步骤3: 实际指令运行: 计算集群执行模块根据执行指令运行实际的HPC计算集群的相
应命令;
所述的步骤2还 包含以下子步骤:
步骤2.1: 控制器根据自定义作业资源集的变更, 生成相应的工作负载的变更, 并将工
作负载变更信息发送给容器集群调度器;
步骤2.2: 容器集群调度器根据工作负载变更, 调度或变更工作负载承载器上的工作负
载;权 利 要 求 书 1/2 页
2
CN 115237547 B
2步骤2.3: 工作负载承载器监听其上的工作负载变更事件, 当工作负载信息发生变化
后, 生成相应的执 行指令并下发给 所述的计算 集群执行模块。权 利 要 求 书 2/2 页
3
CN 115237547 B
3
专利 一种非侵入式HPC计算集群的统一容器集群托管系统和方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:11:24上传分享