专利 一种谩骂评论的检测方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210244932.5 (22)申请日 2022.03.14 (71)申请人中国工商银行股份有限公司地址 100140 北京市西城区复兴门内大街 55号 (72)发明人张磊　 (74)专利代理机构北京三友知识产权代理有限公司 11127 专利代理师董骁毅　周永君 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/126(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种谩骂评论的检测方法及系统 (57)摘要本申请提供的一种谩骂评论的检测方法及系统，涉及人工智能领域和语言处理技术领域，选择多层次向量表示，并选择了参数已经在大量词库中进行最优化的二次预训练模型BERT，对评论进行编码处理。既能保证编码器能充分表示最终的语义表示，还能进一步提高检测模型的准确率和召回率。本发明充分结合策略检测与算法检测的优点，并通过两者的巧妙结合，降低人工成本，在最少算力的前提下，最大限度的保证了模型检测的准确性和有效性。权利要求书3页说明书14页附图9页 CN 114580397 A 2022.06.03 CN 114580397 A 1.一种谩骂评论的检测方法，其特征在于，包括：获取待检测评论文本；对所述待检测评论文本进行过滤；将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果；其中，所述谩骂评论检测模型是通过多个历史评论文本对应的词向量和字向量训练形成的。 2.根据权利要求1所述谩骂评论的检测方法，其特征在于，在将待检测评论文本输入至预设的谩骂评论检测模型之前，还包括：根据预设的最大长度对待检测评论文本进行截断，得到多个待检测词汇；根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测；若所述多个待检测词汇中的至少一个词汇与所述谩骂词汇表中的谩骂词汇相匹配，则确定初步检测的结果为待检测评论文本是谩骂评论；相对应地，所述对所述待检测评论文本进行过滤，具体为：将初步检测结果不是谩骂评论的待检测评论文本过滤出来；所述将待检测评论文本输入至预设的谩骂评论检测模型，具体为：将初步检测的结果为不是谩骂评论的待检测评论文本输入值预设的谩骂评论检测模型。 3.根据权利要求2所述谩骂评论的检测方法，其特征在于，所述根据预设的谩骂词汇表对所述多个待检测词汇进行初步检测，包括：分别对每个所述待检测词汇中以及每个所述谩骂词汇进行词嵌入操作，得到每个待检测词汇对应的第一词向量以及每个谩骂词汇对应的第二词向量；针对每个第一词向量，分别计算其与每个第二词向量的夹角余弦值；相对应地，当所述夹角余弦值超过预设阈值时，认为所述第一词向量对应的待检测词汇与所述第二词向量对应的谩骂词汇相匹配。 4.根据权利要求1所述的谩骂评论的检测方法，其特征在于，对所述谩骂评论检测模型进行训练的步骤包括：采集多个历史评论文本，并根据所述谩骂词汇表对每个历史评论文本进行过滤，得到未命中谩骂词汇表的训练历史评论文本；分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量；对预设的分类模型进行预训练，使其可以学习评论文本深层语义信息；使用所述词向量和字向量对经过预训练的分类模型进行二次训练，得到所述谩骂评论检测模型。 5.根据权利要求4所述的谩骂评论的检测方法，其特征在于，所述分别采用随机初始化权重的卷积神经网络以及中文语料库对所述训练历史评论文本进行处理，得到对应的词向量和字向量，包括：对所述训练历史评论文本进行字符分隔，得到对应的多个单字；采用随机初始化权重的卷积神经网络对所述多个单字进行编码，得到所述训练历史评权　利　要　求　书 1/3 页 2 CN 114580397 A 2论文本对应的字向量；以及对所述训练历史评论文本进行分词处理，得到对应的多个单词；根据预设的中文语料库对所述多个单词进行表示，得到所述训练历史评论文本对应的词向量。 6.根据权利要求4所述的谩骂评论的检测方法，其特征在于，所述使用所述词向量和字向量对经过预训练的分类模型进行二次训练，包括：根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量；将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型；重复执行上述步骤对分类模型进行训练和更新，直至更新后的分类模型收敛；根据收敛的分类模型参数构建神经网络模型，得到所述谩骂评论检测模型。 7.根据权利要求6所述的谩骂评论的检测方法，其特征在于，所述根据所述训练历史评论文本对应的词向量和字向量生成对应的上下文语义向量，包括：在每个训练历史评论文本的开头和结尾分别添加开头表示词以及结尾表示词，得到各训练历史评论文本对应的输入文本；将所述训练历史评论文本对应的词向量和字向量以及所述输入文本输入一编码器，得到各训练历史评论文本的上下文语义向量。 8.根据权利要求6所述的谩骂评论的检测方法，其特征在于，所述经过预训练的分类模型包括两层前向神经网络线性层；所述将所述训练历史评论文本对应的上下文语义向量以及预设的真实分类结果共同输入至经过预训练的分类模型，得到更新后的分类模型，包括：将所述训练历史评论文本对应的上下文语义向量以及预设的分类结果输入至第一层前向神经网络线性层进行降维处理，使所述第一层前向神经网络线性层输出上下文语义向量的降维特征向量；将所述上下文语义向量的降维特征向量输入至第二层前向神经网络线性层，使所述第二层前向神经网络线性层输出所述训练历史评论文本的检测结果；根据所述检测结果以及对应的真实分类结果对所述分类模型的参数进行更新，得到更新后的分类模型。 9.根据权利要求8所述的谩骂评论的检测方法，其特征在于，所述将过滤后的待检测评论文本输入至预设的谩骂评论检测模型，得到待检测评论文本的检测结果，包括：采用随机初始化权重的卷积神经网络以及中文语料库对待检测评论文本进行处理，得到对应的词向量和字向量；根据待检测评论文本的词向量和字向量生成对应的上下文语义向量；将待检测评论文本的上下文语义向量输入至所述谩骂评论检测模型，得到待检测评论文本的检测结果。 10.根据权利要求1所述的谩骂评论的检测方法，其特征在于，所述获取待检测评论文本，包括：获取待检测评论的完整语句；去除待检测评论的完整语句中的非文本字符，得到所述待检测评论文本；权　利　要　求　书 2/3 页 3 CN 114580397 A 3

专利 一种谩骂评论的检测方法及系统

专利一种谩骂评论的检测方法及系统