说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111633434.1 (22)申请日 2021.12.2 9 (71)申请人 厦门安胜网络科技有限公司 地址 361008 福建省厦门市集美区软件园 三期诚毅大街3 58号1502-5单元 (72)发明人 蔡淑苹 李剑煜 杨心恩 陈思德  林山 郭小春  (74)专利代理 机构 厦门福贝知识产权代理事务 所(普通合伙) 35235 代理人 陈远洋 (51)Int.Cl. G06F 16/9038(2019.01) G06F 40/216(2020.01) G06F 40/279(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于深度学习的针对流量解析的重要 信息排序方法、 装置和存 储介质 (57)摘要 本发明提供了一种基于深度学习的针对流 量解析的重要信息排序方法、 装置和可读存储介 质, 使用公共流量符号和流量内容训练生成BERT 模型, 通过MD5比对同类中重复的文档, 通过迭代 二分法的方式过滤掉冗余垃圾流量, 以及重复出 现的流量; 针对小流量, 通过统计的方式获取特 定的分隔符, 将流量切割成流量段并两两比对; 如果比对相似度高则只取其中一段作为主流量; 比对结果不同则针对不同的流量段再次分析, 在 单个流量段中, 采用N ‑Gram算法提取流量片序 列, 进行频度的统计, 最后框定出出现频率最高 的流量片, 进行一个整体的排序。 最后得到流量 的重要信息排序结果。 有效解决海量流量解析带 来的耗时多, 效率低, 无重点的问题。 权利要求书2页 说明书6页 附图3页 CN 114329119 A 2022.04.12 CN 114329119 A 1.一种基于深度学习的针对流 量解析的重要信息排序方法, 其特 征在于, 包括: S1: 使用已有的公共流量符号和流量内容进行Bert模型训练生成Bert模型, 并且使用 所述Bert模型对所要处 理的流量信息进行分类以获得 所述流量信息的类型; S2: 计算所述流量信息中所有流量信息的MD5值, 并通过迭代二分法比对同一类型的流 量信息的MD5值, 排除MD5值相同的流 量信息中的重复流 量信息; S3:使用N ‑Gram算法获取所述重复流量信息中出现频率较高的符号, 并设置成分隔符; 使用所述分 隔符将单条流量信息 分割成多个字段, 通过N ‑Gram算法配合正则表达式获取所 述字段中的重复片段; S4: 递归执 行S2‑S3; S5: 通过正则表达式和N ‑Gram算法计算单条流量片段的片频, 并对片频较高的流量片 段排序, 输出重点 流量内容。 2.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法, 其 特征在于, 所述S2 步骤还包括: 统计所述重复流量信息的重复次数, 并将所述重复次数大于 阈值的流 量信息存 入模型库。 3.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法, 其 特征在于, 所述S3步骤还包括: 响应于所述字段存在所述分隔符, 将所述分隔符存入模型 库; 响应于所述字段不存在所述分隔符, 使用所述分隔符再次分割所述字段。 4.根据权利要求1所述的一种基于深度学习的针对流量解析的重要信息排序方法, 其 特征在于, 所述S 3步骤还包括: 响应于所述重复片段存在重复内容, 排除所述重复片段中的 重复部分, 并统计所述重复片段的重复次数。 5.根据权利要求3所述的一种基于深度学习的针对流量解析的重要信息排序方法, 其 特征在于, 所述分隔符还 包括基本的标点符号和流 量符号。 6.一种基于深度学习的针对流 量解析的重要信息排序装置, 其特 征在于, 包括: Bert模型生成单元: 配置用于使用已有的公共流量符号和流量 内容进行Bert模型训练 生成Bert模 型, 并且使用所述Bert模 型对所要处理的流量信息进行分类以获得所述流量信 息的类型; 流量解析单元: 配置用于计算所述流量信息 中所有流量信 息的MD5值, 并通过迭代二分 法比对同一类型的流量信息的MD5值, 排除MD5值相同的流量信息中的重复流量信息; 使用 N‑Gram算法获取所述重复流量信息中出现频率较高的符号, 并设置成分隔符; 使用所述分 隔符将单条流量信息 分割成多个字段, 通过N ‑Gram算法配合正则表达式获取所述字段中的 重复片段; 递归单元: 配置用于执 行流量解析单元所执行的步骤; 输出单元: 配置用于通过正则表达式和N ‑Gram算法计算单条流量片段的片频, 并对片 频较高的流 量片段排序, 输出重点 流量内容。 7.根据权利要求6所述的一种基于深度学习的针对流量解析的重要信息排序装置, 其 特征在于, 所述流量解析单元执行的步骤还包括: 统计所述重复流量信息的重复次数, 并将 所述重复次数 大于阈值的流 量信息存 入模型库。 8.根据权利要求6所述的一种基于深度学习的针对流量解析的重要信息排序装置, 其 特征在于: 所述流量解析单元执行的步骤还包括: 响应于所述字段存在所述分隔符, 将所述权 利 要 求 书 1/2 页 2 CN 114329119 A 2分隔符存入模型库; 响应于所述字段不存在所述分隔符, 使用所述分隔符再次分割 所述字 段; 响应于所述重复片段存在重复内容, 排除所述重复片段中的重复部 分, 并统计所述重复 片段的重复次数。 9.根据权利要求8所述的一种基于深度学习的针对流量解析的重要信息排序装置, 其 特征在于: 所述分隔符还 包括基本的标点符号和流 量符号。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被执 行时执行如权利要求1 ‑5任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114329119 A 3

.PDF文档 专利 一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质 第 1 页 专利 一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质 第 2 页 专利 一种基于深度学习的针对流量解析的重要信息排序方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。