专利 敏感文本监测方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210749936.9 (22)申请日 2022.06.29 (71)申请人中国银行股份有限公司地址 100818 北京市西城区复兴门内大街1 号 (72)发明人南晓停　 (74)专利代理机构北京三友知识产权代理有限公司 11127 专利代理师王天尧　王维宁 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称敏感文本监测方法及装置 (57)摘要本发明公开了一种敏感文本监测方法及装置，涉及人工智能技术领域，其中该方法包括：根据预先构建的禁用词字典，对待监测文本进行禁用词匹配；在匹配到待监测文本中包含禁用词时，确定待监测文本为敏感文本；在未匹配到待监测文本中包含禁用词时，将待监测文本输入 Bert识别模型，输出根据待监测文本的语义信息确定的待监测文本的文本类别；所述Bert识别模型根据历史文本及历史文本的文本类别训练得到；根据待监测文本的文本类别，确定待监测文本是否为敏感文本。本发明可以识别包含禁用词的、不包含禁用词但语义是敏感的敏感文本，可以准确识别敏感文本，降低敏感文本监测过程中的漏检率，提升敏感文本的监测成功率。权利要求书3页说明书8页附图5页 CN 115048929 A 2022.09.13 CN 115048929 A 1.一种敏感文本监测方法，其特征在于，包括：根据预先构建的禁用词字典，对待监测文本进行禁用词匹配；在匹配到待监测文本中包含禁用词时，确定待监测文本为敏感文本；在未匹配到待监测文本中包含禁用词时，将待监测文本输入Bert识别模型，输出根据待监测文本的语义信息确定的待监测文本的文本类别；所述Bert识别模型根据历史文本及历史文本的文本类别训练得到；根据待监测文本的文本类别，确定待监测文本是否为敏感文本。 2.如权利要求1所述的方法，其特征在于，还包括：在对待监测文本进行禁用词匹配之前，对待监测文本进行预处理，所述预处理包括：去除噪声数据，和/或，对待监测文本进行分词并去除指定字符。 3.如权利要求1所述的方法，其特征在于，还包括：收集禁用词；根据禁用词及禁用词的相关词，构建禁用词字典。 4.如权利要求3所述的方法，其特征在于，禁用词的相关词包括：禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。 5.如权利要求3所述的方法，其特征在于，根据禁用词及禁用词的相关词，构建禁用词字典，包括：根据禁用词及禁用词的相关词，以确定有限自动机DFA方式，构建禁用词字典；根据预先构建的禁用词字典，对待监测文本进行禁用词匹配，包括：遍历以DFA方式构建的禁用词字典，对待监测文本进行禁用词匹配。 6.如权利要求3所述的方法，其特征在于，根据禁用词及禁用词的相关词，构建禁用词字典，包括：根据禁用词及禁用词的相关词，以字典树方式，构建禁用词字典；根据预先构建的禁用词字典，对待监测文本进行禁用词匹配，包括：遍历以字典树方式构建的禁用词字典，对待监测文本进行禁用词匹配。 7.如权利要求1所述的方法，其特征在于，根据预先构建的禁用词字典，对待监测文本进行禁用词匹配，包括：根据预先构建的禁用词字典，采用Word2vec识别模型对待监测文本进行禁用词匹配；所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。 8.如权利要求1所述的方法，其特征在于，所述Ber t识别模型按如下方式得到：将历史文本及历史文本的文本类别作为样本数据，获得训练集和测试集；利用训练集对所述Ber t识别模型进行训练；利用测试集对所述Ber t识别模型进行测试；其中，在将历史文本及历史文本的文本类别作为样本数据，获得训练集和测试集时，对样本数据以数据增强的方式进行文本类别平衡处理。 9.如权利要求1至8任一项所述的方法，其特征在于，还包括：定期对禁用词字典进行更新；和/或，将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别，作为历史数据，对Ber t识别模型继续进行训练。权　利　要　求　书 1/3 页 2 CN 115048929 A 210.一种敏感文本监测装置，其特征在于，包括：禁用词匹配模块，用于根据预先构建的禁用词字典，对待监测文本进行禁用词匹配；第一敏感文本确定模块，用于在禁用词匹配模块匹配到待监测文本中包含禁用词时，确定待监测文本为敏感文本； Bert识别模型处理模块，用于在禁用词匹配模块未匹配到待监测文本中包含禁用词时，将待监测文本输入Bert识别模型，输出根据待监测文本的语义信息确定的待监测文本的文本类别；所述Ber t识别模型根据历史文本及历史文本的文本类别训练得到；第二敏感文本确定模块，用于根据待监测文本的文本类别，确定待监测文本是否为敏感文本。 11.如权利要求10所述的装置，其特征在于，还包括：预处理模块，用于在禁用词匹配模块对待监测文本进行禁用词匹配之前，对待监测文本进行预处理，所述预处理包括：去除噪声数据，和/或，对待监测文本进行分词并去除指定字符。 12.如权利要求10所述的装置，其特征在于，还包括：禁用词收集模块，用于收集禁用词；禁用词字典构建模块，用于根据禁用词及禁用词的相关词，构建禁用词字典。 13.如权利要求12所述的装置，其特征在于，禁用词的相关词包括：禁用词的同义词、形近词、同音词、拆分词其中之一或任意组合。 14.如权利要求12所述的装置，其特征在于，禁用词字典构建模块，具体用于：根据禁用词及禁用词的相关词，以DFA方式，构建禁用词字典；禁用词匹配模块，具体用于：遍历以DFA方式构建的禁用词字典，对待监测文本进行禁用词匹配。 15.如权利要求12所述的装置，其特征在于，禁用词字典构建模块，具体用于：根据禁用词及禁用词的相关词，以字典树方式，构建禁用词字典；禁用词匹配模块，具体用于：遍历以字典树方式构建的禁用词字典，对待监测文本进行禁用词匹配。 16.如权利要求10所述的装置，其特征在于，禁用词匹配模块，具体用于：根据预先构建的禁用词字典，采用Word2vec识别模型对待监测文本进行禁用词匹配；所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到。 17.如权利要求10所述的装置，其特征在于，所述Ber t识别模型按如下方式得到：将历史文本及历史文本的文本类别作为样本数据，获得训练集和测试集；利用训练集对所述Ber t识别模型进行训练；利用测试集对所述Ber t识别模型进行测试；其中，在将历史文本及历史文本的文本类别作为样本数据，获得训练集和测试集时，对样本数据以数据增强的方式进行文本类别平衡处理。 18.如权利要求10 至17任一项所述的装置，其特征在于，还包括：禁用词字典更新模块，用于定期对禁用词字典进行更新；和/或， Bert识别模型更新模块，用于将待监测文本、及Bert识别模型输出的根据待监测文本的语义信息确定的待监测文本的文本类别，作为历史数据，对Bert识别模型继续进权　利　要　求　书 2/3 页 3 CN 115048929 A 3

专利 敏感文本监测方法及装置

专利敏感文本监测方法及装置