专利一种基于大数据的敏感词识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111636920.9 (22)申请日 2021.12.2 9 (71)申请人南京视察者智能科技有限公司地址 210014 江苏省南京市秦淮区永智路6 号南京白下高新技术产业园区四号楼 A栋102室 (72)发明人周洁琴　周金明　 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) G06F 40/289(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于大数据的敏感词识别方法 (57)摘要本发明公开了一种基于大数据的敏感词识别方法，该方法包括：步骤1，利用爬虫软件收集文本数据，对文本数据进行敏感标记，得到敏感文本D1、正常文本D2，将敏感词进行敏感词分类和等级标记，存入敏感词表S。步骤2，通过N ‑gram 模型进行新词发现，对敏感词表S 进行扩增：步骤 3，对每个敏感词表S中的每个敏感词，进行变形处理，得到变形体敏感词。步骤4，基于Trie树和 BERT模型对敏感词表S中的敏感词进行过滤；该方法提高了对敏感词审核和识别的准确性和效率。权利要求书2页说明书4页附图1页 CN 114385775 A 2022.04.22 CN 114385775 A 1.一种基于大数据的敏感词识别方法，其特征在于，该方法主要包括以下步骤：步骤1，利用爬虫软件收集文本数据，对文本数据进行敏感标记，得到敏感文本D1、正常文本D2，将敏感词进行敏感词分类和等级标记，存入敏感词表S；步骤2，通过N ‑gram模型进行新词发现，对敏感词表S进行扩增：将步骤1中的敏感文本D1，采用N‑gram模型进行分词，按照长度为n切分原词，得到多个长度为n的拼接词；统计每个拼接词的词频，计算频率P，选择频率大于设定阈值a的拼接词作为候选词其中， countw表示包含拼接词w的敏感文本数， N表示敏感文本总数；计算每个候选词的凝固度I(x； y)，其中， P(x， y)表示候选词中字 x和字y共同出现的概率， P(x)表示字x单独出现的概率， P(y)表示字y单独出现的概率；计算每个候选词w ′的自由度H(w ′)，其计算公式为：其中， sl为候选词w′的左邻接字的集合； sr为候选词w ′的右邻接字的集合； p(w ′l|w′)为候选词w ′出现的情况下左邻接字w ′l出现的条件概率； p(w ′r|w′)为候选词w ′出现的情况下有邻接字w ′r出现的条件概率；将同时满足： I(x； y)大于凝固度阈值b、 H(w)大于自由度阈值c的候选词作为新词，将该新词的敏感等级都设置为低危，敏感分类为该新词所在敏感文本的分类，将该新词及其敏感等级和敏感分类存入敏感词表S；步骤3，对每个敏感词表S中的每个敏感词m，进行变形处理，得到变形体敏感词m ′，所述变形体包括：在敏感词中间添加特殊字符、对敏感词的一个字或多个字用拼音代替、对敏感词中的一个字或多个字进行拆分、用繁体字代替敏感词中的一个或多个字；变形处理之后，将变形敏感词m ′存入敏感词表S，其敏感分类和敏感等级为原敏感词m 的分类和等级，将敏感词表S存入数据库中；步骤4，基于Trie树和BERT模型对敏感词表S中的敏感词进行过滤；根据敏感词生成敏感词Trie树，将带检索文本内容按照文字顺序在敏感词Trie树中检索，得到文本内容中包含的全部敏感词；将敏感文本D1、正常文本D2放在一起，随机分成训练集和测试集，训练BERT模型，通过 Trie树和BERT模型结合，对输入的检测文本进行敏感词识别和过滤；根据Trie树确定输入的检测文本是否包含敏感词：根据敏感词库生成敏感词Trie树，根据敏感词Trie树进行中文匹配；对匹配到的结果，根据BERT模型进一步判断：若不包含敏感词，则直接通过审核；若包含敏感词，则通过BERT模型进行判断，判断是否为敏感文本，若是敏感文本，且包含的敏感词是高危，则直接过滤该文本；若是敏感文本，且包含的敏感词是低危，则文本包含的敏感词用 “*”代替；若判断为正常文本，则进行人工审核。 2.根据权利要求1所述的一种基于大数据的敏感词识别方法，其特征在于，步骤1中将敏感词进行敏感词分类和等级标记，具体为：将敏感词分成C1、 C2、 C3、 C4、 C5五个类别，将敏感权　利　要　求　书 1/2 页 2 CN 114385775 A 2词分成高危敏感词和低危敏感词两个等级。 3.根据权利要求1所述的一种基于大数据的敏感词识别方法，其特征在于，步骤4中所述根据敏感词Trie树进行中文匹配，具体为：将输入的检测文本利用正则表达式拆成单个字，从根节点处查找检测文本的第一个字符，若没有找到，则从根节点处查找下一个字符，直到找到符合条件的字符；若找到符合条件的字符，则在该字符对应节点的子孙节点下继续查找下一字符的节点，直到到达叶节点结束，循环遍历完毕，返回所有匹配到的字符。 4.根据权利要求1 ‑3任一项所述的一种基于大数据的敏感词识别方法，其特征在于，该方法还包括不断更新训练集，根据训练集更新训练BERT模型。 5.根据权利要求4所述的一种基于大数据的敏感词识别方法，其特征在于，根据步骤4 人工审核的结果，若BERT模型判断为正常文本，但人工审核判断是敏感文本，则把改文本作为训练数据，重新训练BERT模型。权　利　要　求　书 2/2 页 3 CN 114385775 A 3

专利 一种基于大数据的敏感词识别方法

专利一种基于大数据的敏感词识别方法