说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211128753.1 (22)申请日 2022.09.16 (71)申请人 城云科技 (中国) 有限公司 地址 310052 浙江省杭州市滨江区长河街 道江南大道588号恒 鑫大厦主楼17层、 18层 (72)发明人 毛云青 来佳飞 彭大蒙 田雨  (74)专利代理 机构 杭州汇和信专利代理有限公 司 33475 专利代理师 吴琰 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称 一种容器云平台GPU资源调度方法、 装置及 应用 (57)摘要 本申请提出了一种算法容器云平台GPU资源 调度方法、 装置及应用, 包括以下步骤: 构建一个 容器云平台, 使用GPU服务端对物理机中所有的 GPU资源进行虚拟切割, 得到GPU资源列表; 当容 器云平台收到资源调度请求后, 生成调度列表, GPU客户端组件根据所述调度列表进行配置, 配 置完成后对 所述容器云平台发起回应, 所述容器 云平台根据回应在单独的容器中部署GPU代理组 件来管理每一工作服务器的GP U资源; 在GPU 服务 端上为每一工作服务器部署监测代理组件对所 述工作服务器进行监测, 检测到所述工作服务器 越权行为时, 由对应的GPU客户端对工作服务器 进行隔离。 本方案可以基于整个物理机的GPU资 源进行安全、 统一的调度, 避免了 被攻击了风险。 权利要求书2页 说明书11页 附图2页 CN 115454636 A 2022.12.09 CN 115454636 A 1.一种容器云平台GPU资源调度方法, 其特 征在于, 包括以下步骤: 构建容器云平台, 所述容器云平台包括信息互通的GPU控制中心、 GPU客户端、 GPU服务 端和若干个工作服务器, 所述GPU服务端获取物理机中所有的GPU资源, 并对每一GPU资源进 行两个资源维度的虚拟切割, 得到GPU资源列表信息, 所述GPU资源列表信息存储在容器云 平台中, 所述GPU客户端以GPU客户端组件的形式挂载在每一工作服 务器上; 所述GPU控制中心获取的用户的资源调度请求, 基于所述GPU资源列表信息生成调度列 表, 并将所述调度列表发送到每一工作服务器上的GPU客户端组件和所述GPU服务端中, GPU 客户端组件根据所述调 度列表进行配置并对所述容器云平台发起回应, 所述容器云平台根 据所述回应创建一个容器, 并在所述容器中部署GPU代理组件来管 理每一工作服务器的GPU 资源, 所述GPU代理组件与每一所述GPU客户端组件连接, 所述GPU服务端根据所述调度列 表, 生成与所述工作服务器一一对应的GPU计算容器, 每一所述GPU计算容器中存有对应工 作服务器所需的GPU资源, 所述GPU客户端组件与所述GPU服务端进行连接并对每一所述GPU 计算容器中的资源进行调用。 2.根据权利要求1所述的一种容器云平台GPU资源调度方法, 其特征在于, 在 “GPU服务 端获取物理机中所有的GPU资源, 并对每一GPU资源进行两个 资源维度的虚拟切割 ”步骤中, 获取物理机中GPU卡的数量和每张GPU卡的资源量, 将每一GPU卡虚拟切割为多个显存资源 和多个计算资源两个资源维度。 3.根据权利要求1所述的一种容器云平台GPU资源调度方法, 其特征在于, “所述GPU资 源列表存储在容器云平台中 ”步骤包括, 所述GPU服务端先在容器云平台中进行注册, 注册 成功后所述容器云平台向所述GPU服务端发送资源列 表请求, 所述GPU服务端收到资源列表 请求后将GPU资源列表返回给所述容器 云平台, 所述GPU资源列 表以外部资源的形式显示在 容器云平台的可分配资源中, 并将所述GPU资源列表存 储在容器云平台 中。 4.根据权利要求1所述的一种容器云平台GPU资源调度方法, 其特征在于, 所述资源调 度请求的类型为独享型或共享型, 根据不同的请求类型生成不同的调度方式, 根据所述调 度方式得到调度信息, 将所述调度信息、 需要进行资源调度的目标工作服务器和其配置文 件、 GPU服 务端进行组合, 生成调度列表。 5.根据权利要求4所述的一种容器云平台GPU资源调度方法, 其特征在于, 当调度请求 为独享型时, 对所述GPU资源列表中未提供GPU资源的GPU卡进行遍历。 6.根据权利要求4所述的一种容器云平台GPU资源调度方法, 其特征在于, 当调度请求 的类型为共享型时, 以树状拓扑图的形式生成一个共享资源列表, 对所述GPU资源列 表进行 遍历, 将未提供GPU资源的GPU卡和共享标记下的虚拟GPU卡 放入所述共享资源列表中。 7.根据权利要求1所述的一种容器云平台GPU资源调度 方法, 其特征在于, 在 “将所述调 度列表发送到每一工作服务器上的GPU客户端组件和所述GPU服务端中 ”步骤包括, 所述GPU 客户端组件和所述GPU服务端收到调 度列表后进行心跳测试, 若心跳测试失败, 重新生成调 度列表, 若心跳测试成功保持连接状态, 则进 行GPU资源调度; 所述GPU服务端收到调度列表 后与当前GPU资源列表进 行比较, 若资源不符, 则返回失败请求, 重新生成调度列表, 若 所述 当前GPU资源列表与所述调度列表资源相符, 则进行GPU资源调度。 8.根据权利 要求1所述的一种容器云平台GPU资源调度方法, 其特征在于, 在所述GPU服 务端上为每一工作服务器部署监测代理组件和配置文件, 所述监测代理组件以一定的时间权 利 要 求 书 1/2 页 2 CN 115454636 A 2频率对所述容器云平台发送监测信息, 所述容器云平台通过监测信息对所述工作服务器进 行监测, 检测到所述工作服务器越权行为时, 由对应的GPU客户端对工作服务器进行隔离, 所述配置文件中存有 所述工作服务器的命名空间信息、 容器信息、 GPU资源信息; 所述GPU计 算容器根据所述调度列表对不同的工作服务器所需要的GPU资源做虚拟切割, 并且通过调 用内核模块进行SM隔离 。 9.根据权利要求1所述的一种容器云平台GPU资源调度方法, 其特征在于, 每一工作服 务器中的GPU客户端组件会周期性的检查工作服务器是否存活, 若所述工作服务器已经销 毁, 则向所述容器云平台发送 通知, 所述容器云平台收到相关通知后, 确认所述工作服务器 的健康状态, 若确认所述工作服务器已经销毁, 通知所述GPU服务端释放所述工作服务器的 GPU资源。 10.一种容器云平台, 所述容器云平台包括GPU控制中心、 GPU客户端、 GPU服务端和若干 工作服务器, 其特征在于, 用于执行权利要求1 ‑9任一所述的一种容器云平 台GPU资源调度 方法。 11.一种容器云平台GPU资源调度装置, 其特 征在于, 包括: 构建模块: 构建容器云平台, 所述容器云平台包括信息互通的GPU控制中心、 GPU客户 端、 GPU服务端和若干个工作服务器, 所述GPU服务端获取物理机中所有的GPU资源, 并对每 一GPU资源进 行两个资源维度的虚拟切割, 得到 GPU资源列表信息, 所述GPU资源列表信息存 储在容器云平台 中, 所述GPU客户端以GPU客户端组件的形式挂载在每一工作服 务器上; 调度模块: 所述GPU控制中心获取的用户的资源调度请求, 基于所述GPU资源列表信息 生成调度列表, 并将所述调度列表发送到每一工作服务器上的GPU客户端组件和所述GPU服 务端中, GPU客户端组件根据所述调 度列表进行配置并对 所述容器云平台发起回应, 所述容 器云平台根据所述回应创建一个容器, 并在所述容器中部署GPU代理组件来管理每一工作 服务器的GPU资源, 所述GPU代理组件与每一所述GPU客户端组件连接, 所述GPU服务端根据 所述调度列表, 生成与所述工作服务器一一对应的GPU计算容器, 每一所述GPU计算容器中 存有对应工作服务器所需的GPU资源, 所述GPU客户端组件与所述GPU服务端进行连接并对 每一所述GPU计算 容器中的资源进行调用。 12.一种电子装置, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程 序, 所述处理器被设置为运行所述计算机程序以执行权利要求1 ‑9任一所述的一种容器云 平台GPU资源调度方法。 13.一种可读存储介质, 其特征在于, 所述可读存储介质中存储有计算机程序, 所述计 算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括根据权利要求1 ‑9任一 项所述的一种容器云平台GPU资源调度方法。权 利 要 求 书 2/2 页 3 CN 115454636 A 3

.PDF文档 专利 一种容器云平台GPU资源调度方法、装置及应用

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种容器云平台GPU资源调度方法、装置及应用 第 1 页 专利 一种容器云平台GPU资源调度方法、装置及应用 第 2 页 专利 一种容器云平台GPU资源调度方法、装置及应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:09:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。