说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210749936.9 (22)申请日 2022.06.29 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 南晓停  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 王天尧 王维宁 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 敏感文本监测方法及装置 (57)摘要 本发明公开了一种敏感文本监测方法及装 置, 涉及人工智能技术领域, 其中该方法包括: 根 据预先构建的禁用词字典, 对待监测文本进行禁 用词匹配; 在匹配到待监测文本中包含禁用词 时, 确定待监测文本为敏感文本; 在未匹配到待 监测文本中包含禁用词时, 将待监测文本输入 Bert识别模型, 输 出根据待 监测文本的语义信息 确定的待监测文本的文本类别; 所述Bert识别模 型根据历史文本及历史文本的文本类别训练得 到; 根据待监测文本的文本类别, 确定待监测文 本是否为敏感文本。 本发明可以识别包含禁用词 的、 不包含禁用词但语义是敏感的敏感文本, 可 以准确识别敏感文本, 降低敏感文本监测过程中 的漏检率, 提升敏感文本的监测成功率。 权利要求书3页 说明书8页 附图5页 CN 115048929 A 2022.09.13 CN 115048929 A 1.一种敏感文本监测方法, 其特 征在于, 包括: 根据预先构建的禁用词字典, 对待监测文本进行禁用词匹配; 在匹配到待监测文本中包 含禁用词时, 确定待监测文本为敏感文本; 在未匹配到待监测文本中包含禁用词时, 将待监测文本输入Bert识别模型, 输出根据 待监测文本的语义信息确定的待监测文本的文本类别; 所述Bert识别模型根据历史文本及 历史文本的文本类别训练得到; 根据待监测文本的文本类别, 确定待监测文本是否为敏感文本 。 2.如权利要求1所述的方法, 其特 征在于, 还 包括: 在对待监测文本进行禁用词匹配之前, 对待监测文本进行 预处理, 所述预处 理包括: 去除噪声数据, 和/或, 对待监测文本进行分词并去除指定 字符。 3.如权利要求1所述的方法, 其特 征在于, 还 包括: 收集禁用词; 根据禁用词及禁用词的相关词, 构建禁用词字典。 4.如权利要求3所述的方法, 其特 征在于, 禁用词的相关词包括: 禁用词的同义词、 形近词、 同音词、 拆分词其中之一或任意组合。 5.如权利要求3所述的方法, 其特征在于, 根据禁用词及禁用词的相关词, 构建禁用词 字典, 包括: 根据禁用词及禁用词的相关词, 以确定有限自动机DFA方式, 构建禁用词字典; 根据预先构建的禁用词字典, 对待监测文本进行禁用词匹配, 包括: 遍历以DFA方式构建的禁用词字典, 对待监测文本进行禁用词匹配。 6.如权利要求3所述的方法, 其特征在于, 根据禁用词及禁用词的相关词, 构建禁用词 字典, 包括: 根据禁用词及禁用词的相关词, 以字典树方式, 构建禁用词字典; 根据预先构建的禁用词字典, 对待监测文本进行禁用词匹配, 包括: 遍历以字典树方式构建的禁用词字典, 对待监测文本进行禁用词匹配。 7.如权利要求1所述的方法, 其特征在于, 根据预先构建的禁用词字典, 对待监测文本 进行禁用词匹配, 包括: 根据预先构建的禁用词字典, 采用Word2vec识别模型对待监测文本进行禁用词匹配; 所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到 。 8.如权利要求1所述的方法, 其特 征在于, 所述Ber t识别模型按如下 方式得到: 将历史文本及历史文本的文本类别作为样本数据, 获得训练集和 测试集; 利用训练集对所述Ber t识别模型进行训练; 利用测试集对所述Ber t识别模型进行测试; 其中, 在将历史文本及历史文本的文本类别作为样本数据, 获得训练集和测试集时, 对 样本数据以数据增强的方式进行文本类别平衡处 理。 9.如权利要求1至8任一项所述的方法, 其特 征在于, 还 包括: 定期对禁用词字典进行 更新; 和/或, 将待监测文本、 及Bert识别 模型输出的根据待监测文本的语义信息确定的待监 测文本的文本类别, 作为历史数据, 对Ber t识别模型继续进行训练。权 利 要 求 书 1/3 页 2 CN 115048929 A 210.一种敏感文本监测装置, 其特 征在于, 包括: 禁用词匹配模块, 用于根据预 先构建的禁用词字典, 对待监测文本进行禁用词匹配; 第一敏感文本确定模块, 用于在禁用词 匹配模块匹配到待监测文本中包含禁用词时, 确定待监测文本为敏感文本; Bert识别模型处理模块, 用于在禁用词匹配模块未匹配到待监测文本中包含禁用词 时, 将待监测文本输入Bert识别模型, 输出根据待监测文本的语义信息确定的待监测文本 的文本类别; 所述Ber t识别模型根据历史文本及历史文本的文本类别训练得到; 第二敏感文本确定模块, 用于根据待监测文本的文本类别, 确定待监测文本是否为敏 感文本。 11.如权利要求10所述的装置, 其特 征在于, 还 包括: 预处理模块, 用于在禁用词 匹配模块对待监测文本进行禁用词 匹配之前, 对待监测文 本进行预处理, 所述预处 理包括: 去除噪声数据, 和/或, 对待监测文本进行分词并去除指定 字符。 12.如权利要求10所述的装置, 其特 征在于, 还 包括: 禁用词收集模块, 用于收集禁用词; 禁用词字典构建模块, 用于根据禁用词及禁用词的相关词, 构建禁用词字典。 13.如权利要求12所述的装置, 其特 征在于, 禁用词的相关词包括: 禁用词的同义词、 形近词、 同音词、 拆分词其中之一或任意组合。 14.如权利要求12所述的装置, 其特 征在于, 禁用词字典构建模块, 具体用于: 根据禁用词及禁用词的相关词, 以DFA方式, 构建禁用词字典; 禁用词匹配模块, 具体用于: 遍历以DFA方式构建的禁用词字典, 对待监测文本进行禁用词匹配。 15.如权利要求12所述的装置, 其特 征在于, 禁用词字典构建模块, 具体用于: 根据禁用词及禁用词的相关词, 以字典树方式, 构建禁用词字典; 禁用词匹配模块, 具体用于: 遍历以字典树方式构建的禁用词字典, 对待监测文本进行禁用词匹配。 16.如权利要求10所述的装置, 其特 征在于, 禁用词匹配模块, 具体用于: 根据预先构建的禁用词字典, 采用Word2vec识别模型对待监测文本进行禁用词匹配; 所述Word2vec识别模型根据历史文本及历史文本中的禁用词训练得到 。 17.如权利要求10所述的装置, 其特 征在于, 所述Ber t识别模型按如下 方式得到: 将历史文本及历史文本的文本类别作为样本数据, 获得训练集和 测试集; 利用训练集对所述Ber t识别模型进行训练; 利用测试集对所述Ber t识别模型进行测试; 其中, 在将历史文本及历史文本的文本类别作为样本数据, 获得训练集和测试集时, 对 样本数据以数据增强的方式进行文本类别平衡处 理。 18.如权利要求10 至17任一项所述的装置, 其特 征在于, 还 包括: 禁用词字典更新模块, 用于 定期对禁用词字典进行 更新; 和/或, Bert识别模型更新模块, 用于将待监测文本、 及Bert识别模型输出的根据待监 测文本的语义信息确定的待监测文本的文本类别, 作为历史数据, 对Bert识别模型继续进权 利 要 求 书 2/3 页 3 CN 115048929 A 3

.PDF文档 专利 敏感文本监测方法及装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 敏感文本监测方法及装置 第 1 页 专利 敏感文本监测方法及装置 第 2 页 专利 敏感文本监测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。