说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210971533.9 (22)申请日 2022.08.15 (65)同一申请的已公布的文献号 申请公布号 CN 115048564 A (43)申请公布日 2022.09.13 (73)专利权人 中国人民解 放军国防科技大 学 地址 410073 湖南省长 沙市开福区德雅路 109号 (72)发明人 谷学强 张万鹏 张虎 胡丽  廖磊 刘鸿福 杨景照 苏炯铭  项凤涛  (74)专利代理 机构 长沙国科天河知识产权代理 有限公司 432 25 专利代理师 唐品利(51)Int.Cl. G06F 16/951(2019.01) G06F 9/50(2006.01) (56)对比文件 CN 10715 3573 A,2017.09.12 CN 113672345 A,2021.1 1.19 CN 112000445 A,2020.1 1.27 CN 114896068 A,202 2.08.12 CN 105487930 A,2016.04.13 CN 114371925 A,202 2.04.19 CN 108416 073 A,2018.08.17 US 201314 4858 A1,2013.0 6.06 审查员 陈娜 (54)发明名称 分布式爬虫任务调度方法、 系统和设备 (57)摘要 本申请涉及分布式爬虫任务调度方法、 系统 和设备, 方法包括: 获取当前节点的云原生服务 器的容器资源 数据; 根据容器资源 数据确定云原 生服务器的健康阈值; 根据配置的各分布式爬虫 任务执行时占用的资源量, 确定各分布式爬虫任 务在云原生服务器执行时的资源消耗预估值; 根 据容器资源数据、 健康阈值和各资源消耗预估 值, 计算云原生服务器的最高执行任务数量; 根 据最高执行任务数量, 利用配置的任务自动调配 策略在云原生服务器上进行分布式爬虫任务调 度与执行; 任务自动调配策略用于在健康阈值内 动态调节云原生服务器上执行的分布式爬虫任 务数量。 达到了大幅提高任务调度、 资源分配与 利用效率的目的。 权利要求书3页 说明书10页 附图4页 CN 115048564 B 2022.11.04 CN 115048564 B 1.一种分布式爬虫任务调度方法, 其特 征在于, 包括 步骤: 获取当前节点的云原生 服务器的容器资源数据; 根据所述 容器资源数据确定所述云原生 服务器的健康阈值; 根据配置的各分布式爬虫任务执行时占用的资源量, 确定各所述分布式爬虫任务在所 述云原生 服务器执行时的资源消耗预估值; 根据所述容器资源数据、 所述健康阈值和各所述资源消耗预估值, 计算所述云原生服 务器的最高执 行任务数量; 根据所述最高执行任务数量, 利用配置的任务自动调配策略在所述云原生服务器上进 行分布式爬虫任务调度与执行; 所述任务自动调配策略用于在所述健康阈值内动态调节所 述云原生 服务器上执行的所述分布式爬虫任务数量; 所述方法还 包括步骤: 若所述云原生服务器在执行分布式爬虫任务 时的资源消耗量超过所述健康阈值, 则通 过所述任务自动调配策略修改所述 最高执行任务数量; 根据修改后的所述最高执行任务数量, 调节所述云原生服务器上执行的分布式爬虫任 务数量; 获取当前节点的云原生 服务器的容器资源数据的步骤, 包括: 获取所述云原生服务器的容器资源参数; 所述容器资源参数包括CPU核数、 内存参数、 硬盘参数和宽带参数; 获取所述云原生 服务器在系统启动 后的资源剩余 参数; 根据配置的各分布式爬虫任务执行时占用的资源量, 确定各所述分布式爬虫任务在所 述云原生 服务器执行时的资源消耗预估值的步骤, 包括: 分别获取 各分布式爬虫任务的执 行单元占用的固定资源量; 通过时空复杂度函数分别计算各分布式爬虫任务的执行单元的过程消耗资源量; 其 中, 时空复杂度函数为: 其中, 表示过程消 耗资源量, 表示分布式任务启动时的时刻时间, 表示t时 刻时间, 表示任务启动 时资源占用情况, 表示任务执行1秒时资源占用情况, 表示任务执 行2秒时资源占用情况, 表示任务执 行到t时刻资源占用情况; 根据所述固定资源量和所述过程消耗资源量分别计算得到各所述分布式爬虫任务的 资源消耗预估值。 2.根据权利要求1所述的分布式爬虫任务调度方法, 其特征在于, 所述任务自动调配策 略为:权 利 要 求 书 1/3 页 2 CN 115048564 B 2其中, 表示云原生服务器上执行的分布式爬虫任务数量, 表示当前节点 i的内 存资源百分比阈值, 表示当前节点 i已用的内存资源百分比, 表示当前节点 i的应 用资源百分比阈值, 表示当前节点 i的应用资源百分比, 表示当前节点 i应用设置的 每个执行单元占用资源大小, 表示单个分布式爬虫任务所使用的线程数, 表示当前 节点i的CPU资源百分比阈值, 表示当前节点 i的CPU资源百分比, 表示单个分布式爬 虫任务所占用的CPU资源数, 表示当前节点 i的CPU核心数。 3.根据权利要求1所述的分布式爬虫任务调度方法, 其特 征在于, 所述方法还 包括: 配置分布式爬虫任务; 通过所述云原生 服务器部署所述分布式爬虫任务。 4.一种分布式爬虫任务调度系统, 其特 征在于, 包括: 容器数据模块, 用于获取当前节点的云原生 服务器的容器资源数据; 阈值确定模块, 用于根据所述 容器资源数据确定所述云原生 服务器的健康阈值; 资源预估模块, 用于根据配置的各分布式爬虫任务执行时占用的资源量, 确定各所述 分布式爬虫任务在所述云原生 服务器执行时的资源消耗预估值; 任务量计算模块, 用于根据所述容器资源数据、 所述健康阈值和各所述资源消耗预估 值, 计算所述云原生 服务器的最高执 行任务数量; 策略执行模块, 用于根据所述最高执行任务数量, 利用配置的任务自动调配策略在所 述云原生服务器上进 行分布式爬虫任务调 度与执行; 所述任务自动调配策略用于在所述健 康阈值内动态调节所述云原生 服务器上执行的所述分布式爬虫任务数量; 任务量计算模块还用于若所述云原生服务器在执行分布式爬虫任务时的资源消耗量 超过所述健康阈值, 则通过所述任务自动调配策略修改所述最高执行任务数量; 根据修改 后的所述 最高执行任务数量, 调节所述云原生 服务器上执行的分布式爬虫任务数量; 任务量计算模块还用于获取所述云原生服务器的容器资源参数; 所述容器资源参数包 括CPU核数、 内存参数、 硬盘参数和 宽带参数; 获取所述云原生服务器在系统启动后的资源 剩余参数 任务量计算模块还用于分别获取各分布式爬虫任务的执行单元占用的固定资源量; 通 过时空复杂度函数分别计算各分布式爬虫任务的执行单元 的过程消 耗资源量; 其中, 时空 复杂度函数为: 权 利 要 求 书 2/3 页 3 CN 115048564 B 3

.PDF文档 专利 分布式爬虫任务调度方法、系统和设备

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 分布式爬虫任务调度方法、系统和设备 第 1 页 专利 分布式爬虫任务调度方法、系统和设备 第 2 页 专利 分布式爬虫任务调度方法、系统和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:12:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。