(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111457767.3
(22)申请日 2021.12.01
(71)申请人 马上消费金融股份有限公司
地址 401120 重庆市渝北区黄山大道中段
52号渝兴广场B2栋4至8楼
(72)发明人 李长林 蒋宁 王洪斌 吴海英
权佳成 曹磊
(74)专利代理 机构 北京国昊天诚知识产权代理
有限公司 1 1315
代理人 付先智
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)G06N 20/00(2019.01)
(54)发明名称
敏感词识别方法及装置
(57)摘要
本说明书实施例提供了敏感词识别方法及
装置, 其中, 一种敏感词识别方法包括: 基于 预设
词库识别待识别文本包含的敏感词, 得到词集
合; 根据所述待识别文本确定所述词集合中各敏
感词的语义属性; 根据所述各敏感词的语义属性
确定第一词集合; 若所述第一词集合满足情感识
别条件, 则将所述待识别文本输入情感识别模型
进行情感属性识别, 获得所述待识别文本的情感
属性; 若所述情感属性为目标情感属性, 则将所
述待识别文本输入敏感词识别模型进行敏感词
识别, 并将识别获得的第二词集合与所述第一词
集合进行合并。 采用本申请实施例可提升敏感词
识别准确率。
权利要求书2页 说明书19页 附图8页
CN 114239591 A
2022.03.25
CN 114239591 A
1.一种敏感词识别方法, 其特 征在于, 所述方法包括:
基于预设词库识别待识别文本包 含的敏感词, 得到词集 合;
根据所述待识别文本确定所述词集 合中各敏感词的语义属性;
根据所述各 敏感词的语义属性确定第一词集 合;
若所述第一词集合满足情 感识别条件, 则将所述待识别文本输入情 感识别模型进行情
感属性识别, 获得 所述待识别文本的情感属性;
若所述情感属性为目标情 感属性, 则将所述待识别文本输入敏感词识别模型进行敏感
词识别, 并将识别获得的第二词集 合与所述第一词集 合进行合并。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述待识别文本确定所述词集合
中各敏感词的语义属性, 包括:
确定所述词集合中与第 一语义规则对应的第 一类敏感词, 以及与第 二语义规则对应的
第二类敏感词;
按照所述第 一语义规则确定所述第 一类敏感词在所述待识别文本 中的语义属性, 以及
按照所述第二语义 规则确定所述第二类敏感词在所述待识别文本中的语义属性。
3.根据权利要求2所述的方法, 其特征在于, 所述按照所述第 一语义规则确定所述第 一
类敏感词在所述待识别文本中的语义属性, 包括:
获取所述待识别文本中包 含所述第一类敏感词的敏感词文本;
计算所述敏感词文本与第一预设语义表中第一文本的第一相似度, 以及, 计算所述敏
感词文本与第二预设语义表中第二文本的第二相似度;
基于所述第一相似度与所述第二相似度确定所述第一类敏感词在所述待识别文本中
的语义属性。
4.根据权利要求2所述的方法, 其特征在于, 所述按照所述第 二语义规则确定所述第 二
类敏感词在所述待识别文本中的语义属性, 包括:
对所述待识别文本进行语义识别, 并确定所述待识别文本的文本属性;
基于所述文本属性确定所述第二类敏感词的语义属性。
5.根据权利要求1所述的方法, 其特征在于, 所述情 感识别条件, 包括: 所述第 一词集合
中的敏感词不 为空;
所述方法还 包括:
若所述第一词集合中的敏感词为空, 将所述第 一词集合作为所述待识别文本的敏感词
识别结果输出。
6.一种模型训练方法, 其特 征在于, 所述方法包括:
将测试文本 输入初始敏感词识别模型进行 敏感词识别, 获得测试 敏感词集 合;
根据所述测试敏感词集合计算识别准确率, 并根据 所述识别准确率确定目标敏感词集
合;
按照划分条件对所述目标敏感词集合进行类别划分, 根据类别划分结果更新训练样本
集;
基于更新后的训练样本集对所述初始敏感词识别模型进行模型训练, 获得敏感词识别
模型。
7.根据权利要求6所述的方法, 其特征在于, 所述根据所述测试敏感词集合计算识别准权 利 要 求 书 1/2 页
2
CN 114239591 A
2确率, 并根据所述识别准确率确定目标 敏感词集 合, 包括:
根据所述测试敏感词集合计算所述测试文本的文本识别准确率, 以及所述测试文本中
各敏感词的词识别准确率;
将所述各敏感词的词识别准确率小于所述文本识别准确率的敏感词确定为所述目标
敏感词集 合中的目标 敏感词。
8.根据权利要求6所述的方法, 其特征在于, 所述目标敏感词集合包括第 三类敏感词和
第四类敏感词, 所述 根据类别划分结果更新训练样本集, 包括:
基于所述第三类敏感词, 对所述训练样本集中训练样本的标注信息进行 更新;
将更新获得的训练样本更新至所述训练样本集;
或者,
确定包含所述第四类敏感词的文本样本中的待标注敏感词;
在所述文本样本 中对所述待标注敏感词 进行标注 处理, 并将标注 处理后的包含标注信
息的文本样本更新至所述训练样本集。
9.根据权利要求6所述的方法, 其特 征在于, 还 包括:
删除所述训练样本集中的训练样本中第一类敏感词和第二类敏感词的标注信息;
将删除后获得的训练样本更新至所述训练样本集。
10.一种敏感词识别装置, 其特 征在于, 所述装置包括:
第一识别模块, 用于基于预设词库识别待识别文本包 含的敏感词, 得到词集 合;
属性确定模块, 用于根据所述待识别文本确定所述词集 合中各敏感词的语义属性;
集合确定模块, 用于根据所述各 敏感词的语义属性确定第一词集 合;
若所述第 一词集合满足情感识别条件, 则运行情 感识别模块, 所述情感识别模块, 用于
将所述待识别文本输入情感识别模型进行情感属性识别, 获得所述待识别文本的情感属
性;
若所述情 感属性为目标情感属性, 则运行第二识别模块, 所述第二识别模块, 用于将所
述待识别文本输入敏感词识别模型进 行敏感词识别, 并将识别获得的第二词集合与所述第
一词集合进行合并。
11.一种敏感词识别设备, 其特 征在于, 所述设备包括:
处理器; 以及, 被配置为存储计算机可执行指令的存储器, 所述计算机可执行指令在被
执行时使所述处 理器执行如权利要求1 ‑5任一项所述的敏感词识别方法。
12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储计算机
可执行指令, 所述计算机可执行指令在被处理器执行时实现如权利要求1 ‑5任一项所述的
敏感词识别方法。权 利 要 求 书 2/2 页
3
CN 114239591 A
3
专利 敏感词识别方法及装置
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:08上传分享