说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211138811.9 (22)申请日 2022.09.19 (71)申请人 OPPO广东移动通信有限公司 地址 523860 广东省东莞 市长安镇乌沙海 滨路18号 (72)发明人 闾泽军 申鹏 邢乃路 付庆午  (74)专利代理 机构 广州德科知识产权代理有限 公司 44381 专利代理师 邓灵 万振雄 (51)Int.Cl. G06F 11/30(2006.01) G06F 9/48(2006.01) G06F 9/50(2006.01) (54)发明名称 数据集群中的节 点管理方法、 装置及 存储介 质 (57)摘要 本申请提供数据集群中的节 点管理方法、 装 置及存储介质。 本申请的技术方案中, 资源管理 器获取至少一个应用程序管理器发送的至少一 个异常节点信息和至少一个节点管理器发送的 至少一个任务运行信息, 其中, 至少一个异常节 点信息指示的节点是与至少一个节点管理器连 接的多个节 点中的节点, 至少一个任务运行信息 包括在多个节点中的任意一个节点运行失败的 目标任务的运行信息; 根据至少一个异常节点信 息和至少一个任务运行信息, 从多个节点中确定 目标异常节 点; 然后对多个节 点中的正常节点进 行任务调度。 本申请的节点管 理方法可以提高识 别大数据集群中异常节点的准确性, 进而提升大 数据集群的调度稳定性。 权利要求书3页 说明书14页 附图4页 CN 115422010 A 2022.12.02 CN 115422010 A 1.一种数据集群中的节点管理方法, 其特 征在于, 应用于资源管理器, 所述方法包括: 获取至少一个应用程序管理器发送的至少一个异常节点信息和至少一个节点管理器 发送的至少一个任务运行信息, 所述至少一个异常节点信息指示的节点是与所述至少一个 节点管理器连接的多个节点中的节点, 所述至少一个任务运行信息包括在所述多个节点中 的任意一个节点 运行失败的目标任务的运行信息; 根据所述至少一个异常节点信 息和所述至少一个任务运行信 息, 从所述多个节点中确 定目标异常节点; 对所述多个节点中的正常节点进行任务调度, 所述正常节点为所述多个节点中除去所 述目标异常节点中的部分或全部异常节点外的节点。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述至少一个异常节点信 息和所 述至少一个任务 运行信息, 从所述多个节点中确定目标异常节点, 包括: 根据所述至少一个异常节点信 息, 从所述多个节点中确定全局异常节点以及与至少一 个应用程序分别对应的至少一个应用程序异常节点, 其中, 所述资源管理器不在所述全局 异常节点上进 行任何任务调 度, 所述资源管理器不在目标应用程序异常节点上调度与所述 目标应用程序对应的任务, 所述 目标应用程序异常节点与所述 目标应用程序对应, 所述 目 标应用程序异常节点 为所述至少一个 应用程序异常节点中的其中一个; 根据所述至少一个任务运行信 息, 从所述多个节点中确定至少一个应用程序异常任务 节点, 其中, 目标应用程序异常任务节点分别与目标应用程序中的目标任务对应, 所述资源 管理器不在所述目标应用程序异常任务节点上调度所述目标任务, 所述目标应用程序异常 任务节点 为所述至少一个 应用程序异常任务节点中的其中一个。 3.根据权利要求2所述的方法, 其特征在于, 每个任务运行信 息中包括运行失败的任务 信息, 所述任务信息用于指示所述运行失败的任务的失败原因, 所述根据所述至少一个任 务运行信息, 从所述多个节点中确定 至少一个 应用程序异常任务节点, 包括: 从所述至少一个任务运行信息中, 去 除目标失败任务, 获得至少一个更新后的任务运 行信息, 所述目标失败任务为所述失败原因指示为非节点的物理资源引起的运行失败的任 务; 根据所述至少一个更新后的任务运行信息, 确定所述至少一个应用程序异常任务节 点。 4.根据权利要求1所述的方法, 其特征在于, 在确定目标异常节点之后, 所述方法还包 括: 获取每个节点管理器发送的至少一个节点健康分, 每个节点健康分是所述节点管理器 根据预设健康监测指标对与所述节点管理器连接的每个正常节点在执行任务时资源使用 情况进行计算得到的, 所述预设健康 监测指标包括中央处理器使用情况、 磁盘占用情况、 内 存占用情况和网络情况。 5.根据权利要求4所述的方法, 其特征在于, 所述对所述多个节点中的正常节点进行任 务调度, 包括: 根据所述节点 健康分, 对所述多个节点中的正常节点进行任务调度。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述节点健康分, 对所述多个节 点中的正常节点进行任务调度, 包括:权 利 要 求 书 1/3 页 2 CN 115422010 A 2针对每个节点, 若所述节点健康分大于或等于第一预设阈值, 则对运行在所述节点上 的预设任务进行释放; 若所述节点健康分大于或等于第二预设阈值, 且小于所述第一预设阈值时, 则停止继 续调度新的任务至所述节点, 所述第一预设阈值大于所述第二预设阈值; 若所述节点 健康分小于所述第二预设阈值, 则维持所述节点的调度方式。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 根据所述节点健康分, 将所述正常节点缓存至第 一预设队列中, 其中, 所述第 一预设队 列中的正常节点按照所述 正常节点对应的节点 健康分由低到高排序; 若所述第一预设队列 所占用的缓存空间大于或等于第 一预设缓存阈值, 则按照所述正 常节点对应的节点 健康分的高低, 顺序移除节点 健康分低的节点。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 监控所述至少一个节点管理器 中每个节点管理器对应的所有任务的输入/输出IO资源 的使用信息; 若所述所有任务中的IO资源的使用信息中第一任务的IO资源的使用值大于或等于预 设使用阈值, 则对所述第一任务使用的IO 资源进行抑制处 理。 9.根据权利要求1至8中任一项所述的方法, 其特 征在于, 所述方法还 包括: 将所述目标异常节点依次缓存至第二预设队列中; 若所述第二预设队列 所占用的缓存空间大于或等于第 二预设缓存阈值, 则按照进入队 列的时间先后顺序移除所述第二预设队列中在先存 入的目标异常节点; 和/或, 移除存储时间大于或等于预设存 储周期对应的异常节点。 10.一种数据集群中的节点管理方法, 其特 征在于, 应用于节点管理器, 所述方法包括: 获取至少一个任务运行信 息, 所述至少一个任务运行信 息包括在与 所述节点管理器连 接的多个节点中的任意 一个节点 运行失败的目标任务的运行信息; 向资源管理器发送所述至少一个任务 运行信息 。 11.根据权利要求10所述的方法, 其特 征在于, 所述方法还 包括: 根据预设健康监测指标对与所述节点管理器连接的每个正常节点在执行任务时资源 使用情况进行计算, 得到的与每个正常节点对应的节点健康分, 所述预设健康监测指标包 括中央处 理器使用情况、 磁 盘占用情况、 内存占用情况和网络情况; 向所述资源管理器发送所述每 个正常节点对应的节点 健康分。 12.根据权利要求1 1所述的方法, 其特 征在于, 所述方法还 包括: 监控所述节点管理器对应的所有任务的输入/ 输出IO资源的使用信息; 若所述所有任务中的IO资源的使用信息中第一任务的IO资源的使用值大于或等于预 设使用阈值, 则对所述第一任务使用的IO 资源进行抑制处 理。 13.根据权利要求10至12中任一项所述的方法, 其特征在于, 每个任务运行信 息中包括 运行失败的任务信息, 所述任务信息用于指示所述 运行失败的任务的失败原因。 14.一种数据集群中的节点管理装置, 其特 征在于, 应用于资源管理器, 所述装置包括: 获取模块, 用于获取至少一个应用程序管理器发送的至少一个异常节点信 息和至少一 个节点管理器发送的至少一个任务运行信息, 所述至少一个异常节点信息指示的节点是与 所述至少一个节点管理器连接的多个节点中的节 点, 所述至少一个任务运行信息包括在所权 利 要 求 书 2/3 页 3 CN 115422010 A 3

.PDF文档 专利 数据集群中的节点管理方法、装置及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据集群中的节点管理方法、装置及存储介质 第 1 页 专利 数据集群中的节点管理方法、装置及存储介质 第 2 页 专利 数据集群中的节点管理方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:14:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。