说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111441142.8 (22)申请日 2021.11.30 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 (72)发明人 何嘉杰 邓玉 江魁栋  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 代理人 蔡抒枫 (51)Int.Cl. H04L 9/40(2022.01) G06F 16/951(2019.01) (54)发明名称 网络爬虫处置方法、 装置、 服务器及存储介 质 (57)摘要 本申请涉及一种网络爬虫处置方法、 装置、 服务器和存储介质。 该方法包括: 对网络日志数 据进行分析, 获取网络日志数据中的预设字段, 通过预设字段, 确定网络日志数据所属的网络爬 虫类别, 根据网络日志数据所属的网络爬虫类 别, 更新网络爬虫的地址名单。 采用本方法能够 对待处置网络爬虫相关的网络日志数据进行处 理, 先确定网络日志数据所属的网络爬虫类别, 进一步根据网络日志数据所属的网络爬虫类别 去更新网络爬虫的地址名单, 避免了对网络爬虫 在不分类的情况下进行统一处置所存在的问题, 从而提高地址名单更新的准确性, 进一步提高了 处置效果。 权利要求书2页 说明书13页 附图4页 CN 114401104 A 2022.04.26 CN 114401104 A 1.一种网络 爬虫处置方法, 其特 征在于, 所述方法包括: 对网络日志数据进行分析, 获取 所述网络日志数据中的预设字段; 通过所述预设字段, 确定所述网络日志数据所属的网络 爬虫类别; 根据所述网络日志数据所属的网络爬虫类别, 更新网络爬虫的地址名单, 所述网络爬 虫的地址单名用于对网络访问请求进行处置 。 2.根据权利要求1所述的方法, 其特征在于, 所述对网络日志数据进行分析, 确定所述 网络日志数据中的预设字段, 包括: 对网络访问请求数据进行 预处理, 得到所述网络日志数据; 根据时序数据库中的功能函数对所述网络日志数据进行分析, 确定所述预设字段。 3.根据权利要求2所述的方法, 其特征在于, 所述对网络访 问请求数据进行预处理, 得 到所述网络日志数据, 包括: 从内存中获取 所述网络访问请求数据; 所述网络访问请求数据包括 Nginx变量; 根据网络爬虫需求, 从所述Nginx变量中筛选待处置 网络爬虫的相关变量, 并将所述相 关变量确定为所述网络日志数据。 4.根据权利要求1 ‑3中任一项所述的方法, 其特征在于, 所述通过所述预设字段, 确定 所述网络日志数据所属的网络 爬虫类别, 包括: 根据所述预设字段, 确定初始搜索引擎爬虫的用户代理; 根据所述用户代理, 确定所述网络日志数据所属的网络 爬虫类别。 5.根据权利要求4所述的方法, 其特征在于, 所述根据所述用户代理, 确定所述网络日 志数据所属的网络 爬虫类别, 包括: 从所述网络日志数据中获取所述用户代 理对应的IP地址列表; 所述IP地址列表中包括 多个第一 IP地址; 根据所述初始搜索引擎爬虫在网站对应的第二IP地址和所述第一地址, 确定所述网络 日志数据所属的网络 爬虫类别。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述初始搜索引擎爬虫在网站对 应的第二 IP地址和所述第一 地址, 确定所述网络日志数据所属的网络 爬虫类别, 包括: 对所述第一 IP地址与对应的所述第二 IP地址进行比较; 若所述第一IP地址与对应的所述第二IP地址相同, 则确定所述网络日志数据为目标搜 索引擎爬虫; 若所述第一IP地址与对应的所述第二IP地址不相同, 则确定所述网络日志数据为恶意 网络爬虫。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 若所述第一IP地址与对应的所述第二IP地址不相同, 则将所述第一IP地址从所述IP地 址列表中删除。 8.根据权利要求4所述的方法, 其特征在于, 所述根据所述用户代理, 确定所述网络日 志数据所属的网络 爬虫类别, 包括: 若所述用户代理中包 含编程语言内容, 则将所述网络日志数据确定为恶意网络 爬虫。 9.根据权利要求4所述的方法, 其特征在于, 所述根据所述用户代理, 确定所述网络日 志数据所属的网络 爬虫类别, 包括:权 利 要 求 书 1/2 页 2 CN 114401104 A 2根据所述功能函数, 从所述预设字段中获取网络爬虫请求特征, 所述网络爬虫请求特 征包括访问频率和/或访问异常信息; 根据所述网络 爬虫请求特 征, 确定所述网络日志数据所属的网络 爬虫类别。 10.根据权利要求9所述的方法, 其特征在于, 若所述网络日志数据所属的网络爬虫类 别为恶意网络 爬虫, 则所述更新网络 爬虫的地址名单, 包括: 若所述恶意网络爬虫灰名单中的第三IP地址为预设时间内的更新IP地址, 且所述更新 IP地址对应的网络日志数据的访问频率大于预设频率阈值, 则根据用户指 令更新所述地址 名单。 11.根据权利要求10所述的方法, 其特征在于, 所述地址名单包括恶意网络爬虫灰名单 和恶意网络 爬虫黑名单, 所述 根据用户指令更新所述 地址名单, 包括: 若所述用户指令指示所述网络日志数据为正常访问请求数据, 则将所述恶意网络爬虫 灰名单中的所述更新 IP地址进行删除; 若所述用户指令指示所述网络访问请求数据为恶意网络爬虫, 则将所述更新IP地址添 加至所述恶意网络 爬虫黑名单中。 12.一种网络 爬虫处置装置, 其特 征在于, 所述装置包括: 分析模块, 用于对网络日志数据进行分析, 获取 所述网络日志数据中的预设字段; 爬虫类别确定模块, 用于通过所述预设字段, 确定所述网络日志数据所属的网络爬虫 类别; 地址名单更新模块, 用于根据所述网络日志数据所属的网络爬虫类别, 更新网络爬虫 的地址名单, 所述网络 爬虫的地址单名用于对网络访问请求进行处置 。 13.一种服务器, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在于, 所 述处理器执行所述计算机程序时实现权利要求1 ‑11中任一项所述方法的步骤。 14.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现权利要求1 ‑11中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114401104 A 3

.PDF文档 专利 网络爬虫处置方法、装置、服务器及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 网络爬虫处置方法、装置、服务器及存储介质 第 1 页 专利 网络爬虫处置方法、装置、服务器及存储介质 第 2 页 专利 网络爬虫处置方法、装置、服务器及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:23:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。