说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111636920.9 (22)申请日 2021.12.2 9 (71)申请人 南京视察 者智能科技有限公司 地址 210014 江苏省南京市秦淮区永智路6 号南京白下高新技术产业园区四号楼 A栋102室 (72)发明人 周洁琴 周金明  (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/289(2020.01) G06N 20/00(2019.01) (54)发明名称 一种基于大数据的敏感词识别方法 (57)摘要 本发明公开了一种基于大数据的敏感词识 别方法, 该方法包括: 步骤1, 利用爬虫软件收集 文本数据, 对文本数据进行敏感标记, 得到敏感 文本D1、 正常文本D2, 将敏感词进行敏感词分类 和等级标记, 存入敏 感词表S。 步骤2, 通过N ‑gram 模型进行新词发现, 对敏感词表S 进行扩增: 步骤 3, 对每个敏感词表S中的每个敏感词, 进行变形 处理, 得到变形体敏感词。 步骤4, 基于Trie树和 BERT模型对敏感词表S中的敏感词进行过滤; 该 方法提高了对敏感词审核和识别的准确性和效 率。 权利要求书2页 说明书4页 附图1页 CN 114385775 A 2022.04.22 CN 114385775 A 1.一种基于大 数据的敏感词识别方法, 其特 征在于, 该 方法主要包括以下步骤: 步骤1, 利用爬虫软件收集文本数据, 对文本数据进行敏感标记, 得到敏感文本D1、 正常 文本D2, 将敏感词进行 敏感词分类和等级标记, 存 入敏感词表S; 步骤2, 通过N ‑gram模型进行新词发现, 对敏感词表S进行扩增: 将步骤1中的敏感文本D1, 采用N‑gram模型进行分词, 按照长度为n切分原词, 得到多个 长度为n的拼接词; 统计每个拼接词的词频, 计算频率P, 选择频率大于设定阈值a的拼接词 作为候选词 其中, countw表示包含拼接词w的敏感文本数, N表示敏感文 本总数; 计算每个候选词的凝固度I(x; y), 其中, P(x, y)表示候选词中字 x和字y共同出现的概 率, P(x)表示字x单独出现的概 率, P(y)表示字y单独出现的概 率; 计算每个候选词w ′的自由度H(w ′), 其计算公式为: 其中, sl为候选 词w′的左邻接字的集合; sr为候选词w ′的右邻接字的集合; p(w ′l|w′)为候选词w ′出现的情 况下左邻接字w ′l出现的条件概率; p(w ′r|w′)为候选词w ′出现的情况下有邻接字w ′r出现的 条件概率; 将同时满足: I(x; y)大于凝固度阈值b、 H(w)大于自由度阈值c的候选词作为新词, 将该 新词的敏感等级都设置为低危, 敏感分类为该新词所在敏感文本的分类, 将该新词及其敏 感等级和敏感分类存 入敏感词表S; 步骤3, 对每个敏感词 表S中的每个敏感词m, 进行变形处理, 得到变形体敏感词m ′, 所述 变形体包括: 在敏感词中间添加特殊字符、 对敏感词的一个字或多个字用拼音代替、 对敏感 词中的一个字或多个字进行拆分、 用繁体字代替敏感词中的一个或多个字; 变形处理之后, 将变形敏感词m ′存入敏感词表S, 其敏感分类和敏感等级为原敏感词m 的分类和等级, 将敏感词表S存 入数据库中; 步骤4, 基于Trie树和BERT模型对敏感词表S中的敏感词进行 过滤; 根据敏感词生成敏感词Trie树, 将带检索文本内容按照文字顺序在敏感词Trie树中检 索, 得到文本内容中包 含的全部敏感词; 将敏感文本D1、 正常文本D2放在一起, 随机分成训练集和测试集, 训练BERT模型, 通过 Trie树和BERT模型 结合, 对输入的检测文本进行 敏感词识别和过 滤; 根据Trie树确定输入的检测文本是否包含敏感词: 根据敏感词库生成敏感词Trie树, 根据敏感词Trie树进行中文匹配; 对匹配到的结果, 根据BERT模型进一 步判断: 若不包含敏感词, 则直接通过审核; 若包含敏感词, 则通过BERT模型进行判断, 判断是否为敏感文本, 若是敏感文本, 且包 含的敏感词是高危, 则直接过滤该文本; 若是敏感文本, 且包含的敏感词是低危, 则文本包 含的敏感词用 “*”代替; 若判断为 正常文本, 则进行 人工审核。 2.根据权利要求1所述的一种基于大数据的敏感词识别方法, 其特征在于, 步骤1中将 敏感词进行敏感词分类和等级标记, 具体 为: 将敏感词分成C1、 C2、 C3、 C4、 C5五个类别, 将敏感权 利 要 求 书 1/2 页 2 CN 114385775 A 2词分成高危敏感词和低危敏感词两个等级。 3.根据权利要求1所述的一种基于大数据的敏感词识别方法, 其特征在于, 步骤4中所 述根据敏感词Trie树进行中文匹配, 具体为: 将输入的检测文本利用正则表达式拆成单个 字, 从根节点处查找检测文本的第一个字符, 若没有找到, 则从根节点处查找下一个字符, 直到找到符合条件的字符; 若找到符合条件的字符, 则在该字符对应节点的子孙节点下继 续查找下一字符的节点, 直到 到达叶节点结束, 循环遍历完毕, 返回所有匹配到的字符。 4.根据权利要求1 ‑3任一项所述的一种基于大数据的敏感词识别方法, 其特征在于, 该 方法还包括不断更新训练集, 根据训练集更新训练BERT模型。 5.根据权利要求4所述的一种基于大数据的敏感词识别方法, 其特征在于, 根据步骤4 人工审核的结果, 若BERT模 型判断为正常文本, 但人工审核判断是敏感文本, 则把改文本作 为训练数据, 重新训练BERT模型。权 利 要 求 书 2/2 页 3 CN 114385775 A 3

.PDF文档 专利 一种基于大数据的敏感词识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于大数据的敏感词识别方法 第 1 页 专利 一种基于大数据的敏感词识别方法 第 2 页 专利 一种基于大数据的敏感词识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。