(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210244932.5
(22)申请日 2022.03.14
(71)申请人 中国工商银行股份有限公司
地址 100140 北京市西城区复兴门内大街
55号
(72)发明人 张磊
(74)专利代理 机构 北京三友知识产权代理有限
公司 11127
专利代理师 董骁毅 周永君
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 40/126(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种谩骂评论的检测方法及系统
(57)摘要
本申请提供的一种谩骂评论的检测方法及
系统, 涉及人工智 能领域和语言处理技术领域,
选择多层次向量表示, 并选择了参数已经在大量
词库中进行最优化的二次预训练模型BERT, 对评
论进行编码处理。 既能保证编码器能充分表示最
终的语义表 示, 还能进一步提高检测模型的准确
率和召回率。 本发明充分结合策略检测与算法检
测的优点, 并通过两者的巧妙结合, 降低人工成
本, 在最少算力的前提下, 最大限度的保证了模
型检测的准确性和有效性。
权利要求书3页 说明书14页 附图9页
CN 114580397 A
2022.06.03
CN 114580397 A
1.一种谩骂评论的检测方法, 其特 征在于, 包括:
获取待检测评论文本;
对所述待检测评论文本进行 过滤;
将过滤后的待检测评论文本输入至预设的谩骂 评论检测模型, 得到待检测评论文本的
检测结果;
其中, 所述谩骂 评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形
成的。
2.根据权利要求1所述谩骂 评论的检测方法, 其特征在于, 在将待检测评论文本输入至
预设的谩骂评论检测模型之前, 还 包括:
根据预设的最大长度对待检测评论文本进行截断, 得到多个待检测词汇;
根据预设的谩骂词汇 表对所述多个待检测词汇进行初步检测;
若所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配, 则
确定初步检测的结果 为待检测评论文本是谩骂评论;
相对应地, 所述对所述待检测评论文本进行 过滤, 具体为:
将初步检测结果 不是谩骂评论的待检测评论文本过 滤出来;
所述将待检测评论文本 输入至预设的谩骂评论检测模型, 具体为:
将初步检测的结果为不是谩骂评论的待检测评论文本输入值预设的谩骂评论检测模
型。
3.根据权利要求2所述谩骂 评论的检测方法, 其特征在于, 所述根据预设的谩骂词汇表
对所述多个待检测词汇进行初步检测, 包括:
分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作, 得到每个待检
测词汇对应的第一词向量以及每 个谩骂词汇对应的第二词向量;
针对每个第一词向量, 分别计算 其与每个第二词向量的夹角余弦值;
相对应地, 当所述夹角余弦值超过预设阈值时, 认为所述第一词向量对应的待检测词
汇与所述第二词向量对应的谩骂词汇相匹配。
4.根据权利要求1所述的谩骂 评论的检测方法, 其特征在于, 对所述谩骂 评论检测模型
进行训练的步骤 包括:
采集多个历史评论文本, 并根据所述谩骂词汇表对每个历史评论文本进行过滤, 得到
未命中谩骂词汇 表的训练历史评论文本;
分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本
进行处理, 得到对应的词向量和字向量;
对预设的分类模型进行 预训练, 使其可以学习评论文本深层语义信息;
使用所述词向量和字向量对经过预训练的分类模型进行二 次训练, 得到所述谩骂 评论
检测模型。
5.根据权利要求4所述的谩骂 评论的检测方法, 其特征在于, 所述分别采用随机初始化
权重的卷积神经网络以及中文语料库对所述训练历史评论文本进 行处理, 得到对应的词向
量和字向量, 包括:
对所述训练历史评论文本进行字符分隔, 得到对应的多个单字;
采用随机初始化权重的卷积神经网络对所述多个单字进行编码, 得到所述训练历史评权 利 要 求 书 1/3 页
2
CN 114580397 A
2论文本对应的字向量; 以及
对所述训练历史评论文本进行分词处 理, 得到对应的多个单词;
根据预设的中文语料库对所述多个单词 进行表示, 得到所述训练历史评论文本对应的
词向量。
6.根据权利要求4所述的谩骂 评论的检测方法, 其特征在于, 所述使用所述词向量和字
向量对经 过预训练的分类模型进行二次训练, 包括:
根据所述训练历史评论文本对应的词向量和字向量 生成对应的上 下文语义向量;
将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入
至经过预训练的分类模型, 得到更新后的分类模型;
重复执行上述步骤对分类模型进行训练和更新, 直至更新后的分类模型收敛;
根据收敛的分类模型参数构建神经网络模型, 得到所述 谩骂评论检测模型。
7.根据权利要求6所述的谩骂 评论的检测方法, 其特征在于, 所述根据 所述训练历史评
论文本对应的词向量和字向量 生成对应的上 下文语义向量, 包括:
在每个训练历史评论文本的开头和结尾分别添加开头表示词以及结尾表示词, 得到各
训练历史评论文本对应的输入文本;
将所述训练历史评论文本对应的词向量和字向量以及所述输入文本输入一编码器, 得
到各训练历史评论文本的上 下文语义向量。
8.根据权利要求6所述的谩骂 评论的检测方法, 其特征在于, 所述经过预训练 的分类模
型包括两层前向神经网络线性层;
所述将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同
输入至经 过预训练的分类模型, 得到更新后的分类模型, 包括:
将所述训练历史评论文本对应的上下文语义向量以及预设的分类结果输入至第一层
前向神经网络线性层进行降维处理, 使所述第一层前向神经网络线性层输出上下文语义向
量的降维特 征向量;
将所述上下文语义向量的降维特征向量输入至第 二层前向神经网络线性层, 使所述第
二层前向神经网络线性层输出 所述训练历史评论文本的检测结果;
根据所述检测结果以及对应的真实分类结果对所述分类模型的参数进行更新, 得到更
新后的分类模型。
9.根据权利要求8所述的谩骂 评论的检测方法, 其特征在于, 所述将过滤后的待检测评
论文本输入至预设的谩骂评论检测模型, 得到待检测评论文本的检测结果, 包括:
采用随机初始化权重的卷积神经网络以及中文语料库对待检测评论文本进行处理, 得
到对应的词向量和字向量;
根据待检测评论文本的词向量和字向量 生成对应的上 下文语义向量;
将待检测评论文本的上下文语义向量输入至所述谩骂 评论检测模型, 得到待检测评论
文本的检测结果。
10.根据权利要求1所述的谩骂评论的检测方法, 其特征在于, 所述获取待检测评论文
本, 包括:
获取待检测评论的完整语句;
去除待检测评论的完整语句中的非文本 字符, 得到所述待检测评论文本;权 利 要 求 书 2/3 页
3
CN 114580397 A
3
专利 一种谩骂评论的检测方法及系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:35上传分享