(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111231729.6
(22)申请日 2021.10.2 2
(71)申请人 平安国际智慧城市科技股份有限公
司
地址 518000 广东省深圳市前海深港合作
区妈湾兴海 大道3048号前海自贸大厦
1-34层
(72)发明人 莫智文
(74)专利代理 机构 深圳中一联合知识产权代理
有限公司 4 4414
代理人 杨志强
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/216(2020.01)
G06N 20/00(2019.01)
(54)发明名称
基于深度学习的敏感词检测方法、 装置、 设
备及存储介质
(57)摘要
本申请适用于人工智能技术领域, 提供了基
于深度学习的敏感词检测方法、 装置、 设备及存
储介质。 包括: 获取待检测文本; 通过敏感词检测
模型提取待检测文本对应的字形 组合特征、 字形
编码特征以及拼音编码特征; 根据预设的敏感词
库、 字形组合特征、 字形编码特征 以及拼音编码
特征, 确定待检测文本对应的多个初始敏感词;
提取每个初始敏感词的词义特征; 提取待检测文
本的语义特征; 根据语义特征和每个初始敏感词
的词义特征, 确定待检测文本对应的目标敏感
词。 上述方案中, 提取汉字在字形和发音两方面
的特征, 融合上下文信息, 使最终确定的敏感词
更为准确。 还提取字形组合特征, 能够更好地检
测出变形词对应的敏感词, 进一步提升了检测敏
感词的准确率。
权利要求书2页 说明书15页 附图4页
CN 113988061 A
2022.01.28
CN 113988061 A
1.一种基于深度学习的敏感词检测方法, 其特 征在于, 包括:
获取待检测文本;
通过已训练的敏感词检测模型遍历所述待检测文本对应的每个字, 并在遍历过程中检
测到所述待检测文本中的字能组成新字时, 根据所述新字确定所述待检测文本对应的字形
组合特征;
通过所述敏感词检测模型对所述待检测文本 中的每个字进行字形编码, 得到所述待检
测文本对应的字形编码特征, 所述字形编 码特征包括汉字字形编 码特征和四角号码编 码特
征;
通过所述敏感词检测模型对所述待检测文本 中的每个字进行拼音编码, 得到所述待检
测文本对应的拼音编码特征, 所述拼音编 码特征包括汉字拼音编 码特征和部首拼音编 码特
征;
根据预设的敏感词库、 所述字形组合特征、 所述字形编码特征以及所述拼音编码特征,
确定所述待检测文本对应的多个初始敏感词;
采用所述敏感词检测模型提取每 个所述初始敏感词的词义特 征;
通过所述敏感词检测模型提取 所述待检测文本的语义特 征;
根据所述语义特征和每个所述初始敏感词的词义特征, 确定所述待检测文本对应的目
标敏感词。
2.如权利要求1所述的敏感词检测方法, 其特征在于, 所述初始敏感词包括第一敏感
词、 第二敏感词、 第三敏感词以及第四敏感词; 所述根据预设的敏感词库、 所述字形组合特
征、 所述字形编码特征以及所述拼音编码特征, 确定所述待检测文本对应的多个初始敏感
词, 包括:
基于所述敏感词库, 确定所述待检测文本对应的第一敏感词;
根据所述敏感词库和所述字形组合特 征, 确定所述待检测文本对应的第二敏感词;
基于所述敏感词库和所述字形编码特 征, 确定所述待检测文本对应的第三敏感词;
根据所述敏感词库和所述 拼音编码特 征, 确定所述待检测文本对应的第四敏感词。
3.如权利要求2所述的敏感词检测方法, 其特征在于, 所述基于所述敏感词库, 确定所
述待检测文本对应的第一敏感词, 包括:
对所述待检测文本进行分词处 理, 得到多个分词, 所述分词包括词语和单字;
当在所述敏感词库中查询到任一所述分词时, 将任一所述分词确定为所述第一敏感
词。
4.如权利要求2所述的敏感词检测方法, 其特征在于, 所述基于所述敏感词库和所述字
形编码特 征, 确定所述待检测文本对应的第三敏感词, 包括:
在所述敏感词库中查询与所述字形编码特 征匹配的敏感词;
将查询到的与所述字形编码特 征匹配的敏感词, 确定为所述第三敏感词。
5.如权利要求2所述的敏感词检测方法, 其特征在于, 所述根据 所述敏感词库和所述拼
音编码特 征, 确定所述待检测文本对应的第四敏感词, 包括:
在所述敏感词库中查询与所述 拼音编码特 征匹配的敏感词;
将查询到的与所述 拼音编码特 征匹配的敏感词, 确定为所述第四敏感词。
6.如权利要求1所述的敏感词检测方法, 其特征在于, 所述获取待检测文本之前, 所述权 利 要 求 书 1/2 页
2
CN 113988061 A
2敏感词检测方法还 包括:
获取预设的多个敏感词;
对每个所述敏感词进行字形编码, 得到每 个所述敏感词对应的字形编码敏感词;
对每个所述敏感词进行拼音编码, 得到每 个所述敏感词对应的拼音编码敏感词;
基于每个所述敏感词、 每个所述字形编码敏感词以及每个所述拼音编码敏感词, 构建
所述敏感词库。
7.如权利要求1至6任一项所述的敏感词检测方法, 其特征在于, 所述根据所述语义特
征和每个所述初始敏感词的词义特征, 确定所述待检测文本对应的目标敏感词之后, 所述
敏感词检测方法还 包括:
在所述待检测文本中过 滤所述目标 敏感词。
8.一种基于深度学习的敏感词检测装置, 其特 征在于, 包括:
获取单元, 用于获取待检测文本;
第一确定单元, 用于通过已训练的敏感词检测模型遍历所述待检测文本对应的每个
字, 并在遍历过程中检测到所述待检测文本中的字能组成新字时, 根据所述新字确定所述
待检测文本对应的字形组合特 征;
第一编码单元, 用于通过所述敏感词检测模型对所述待检测文本 中的每个字进行字形
编码, 得到所述待检测文本对应的字形编码特征, 所述字形编码特征包括汉字字形编码特
征和四角号码编码特 征;
第二编码单元, 用于通过所述敏感词检测模型对所述待检测文本 中的每个字进行拼音
编码, 得到所述待检测文本对应的拼音编码特征, 所述拼音编码特征包括汉字拼音编码特
征和部首拼音编码特 征;
第二确定单元, 用于根据 预设的敏感词库、 所述字形组合特征、 所述字形编码特征以及
所述拼音编码特 征, 确定所述待检测文本对应的多个初始敏感词;
第一提取单元, 用于采用所述敏感词检测模型提取每 个所述初始敏感词的词义特 征;
第二提取单元, 用于通过 所述敏感词检测模型提取 所述待检测文本的语义特 征;
第三确定单元, 用于根据所述语义特征和每个所述初始敏感词的词义特征, 确定所述
待检测文本对应的目标 敏感词。
9.一种基于深度学习的敏感词检测设备, 包括存储器、 处理器以及存储在所述存储器
中并可在所述处理器上运行 的计算机程序, 其特征在于, 所述处理器执行所述计算机程序
时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 113988061 A
3
专利 基于深度学习的敏感词检测方法、装置、设备及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:02:00上传分享