专利一种不良语料过滤方法以及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210905334.8 (22)申请日 2022.07.29 (71)申请人浙江工商大学地址 310000 浙江省杭州市下沙高教园区学正街18号 (72)发明人蒋晓宁　刘凯　程凯林　周郁寒　谢洪民　 (74)专利代理机构杭州裕阳联合专利代理有限公司 33289 专利代理师王榧 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/279(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称一种不良语料过滤方法以及系统 (57)摘要本发明公开了一种不良语料过滤方法以及系统，其中方法包括以下步骤：获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；抽取基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；根据语料识别模型对基础文本语料进行检测识别，得到第二识别结果；根据第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。本发明通过知识图谱技术对不良文本进行筛选，利用其语义网络本质和强大关联能力，能够获取多个候选不良实体有利于实现对拼音、谐音和拆分词等形式的隐晦不良信息的过滤。权利要求书2页说明书6页附图1页 CN 115544204 A 2022.12.30 CN 115544204 A 1.一种不良语料过滤方法，其特征在于，包括以下步骤：获取待识别文本语料，对所述待识别文本语料进行预处理，得到基础文本语料；抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果；根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料，并根据所述第二识别结果对不良文本知识图谱进行更新。 2.根据权利要求1所述的不良语料过滤方法，其特征在于，所述不良文本知识图谱的构建包括：获取大量在网络平台中的原始不良文本信息，抽取所述原始不良文本信息的实体，得到若干不良词实体；对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体；按照拼音转换、谐音转换和词性词频对所述不良词实体、不良词拼音实体和不良词谐音实体进行关系抽取，并通过实体消歧处理进行三元组构建，得到不良文本知识图谱。 3.根据权利要求1所述的不良语料过滤方法，其特征在于，得到第一识别结果，具体包括：根据所述不良文本知识图谱筛选所述基础文本语料的实体，按预设数量获取若干候选不良实体；利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量，根据余弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度，根据所述相似度得到第一识别结果。 4.根据权利要求1所述的不良语料过滤方法，其特征在于，所述语料识别模型为KNN模型。 5.根据权利要求4所述的不良语料过滤方法，其特征在于，所述语料识别模型的构建包括：获取用户反馈的不良信息，采集正常语料信息；对所述不良信息以及正常语料信息逐词进行拼音转换和谐音转换，得到拼音语料信息和谐音语料信息；将所述不良信息、正常语料信息、拼音语料信息和谐音语料信息作为样本集划分为训练集和测试集，并将所述样本集通过word2vec模型映射为空间向量；利用KNN模型对映射为空间向量的训练集进行训练，获得语料识别模型。 6.根据权利要求2所述的不良语料过滤方法，其特征在于，对所述不良词实体进行实体转换处理，得到不良词拼音实体和不良词谐音实体，包括：对所述不良词实体进行拼音转换，将不良词实体的汉字逐词进行拼音转换，得到不良词拼音实体；对所述不良词实体进行谐音转换，将不良词实体的汉字逐词进行谐音转换，得到不良词谐音实体。 7.根据权利要求1所述的不良语料过滤方法，其特征在于，所述待识别文本语料包括弹幕评论和留言评论。 8.根据权利要求1所述的不良语料过滤方法，其特征在于，所述预处理包括分词处理、权　利　要　求　书 1/2 页 2 CN 115544204 A 2停用词处理和虚词处理。 9.一种不良语料过滤系统，其特征在于，包括：信息获取模块，用于获取待识别文本语料；预处理模块，用于对所述待识别文本语料进行预处理，得到基础文本语料；图数据库，用于存储不良文本知识图谱，模型库，用于存储语料识别模型；第一识别模块，用于抽取所述基础文本语料中的实体，根据不良文本知识图谱对所述基础文本语料的实体进行匹配搜索，得到第一识别结果；第二识别模块，用于根据语料识别模型对所述基础文本语料进行检测识别，得到第二识别结果；过滤模块，用于根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语料；更新模块，用于根据所述第二识别结果对不良文本知识图谱进行更新。 10.根据权利要求9所述的不良语料过滤系统，其特征在于，还包括构建模块，用于构建不良文本知识图谱以及语料识别模型。权　利　要　求　书 2/2 页 3 CN 115544204 A 3

专利 一种不良语料过滤方法以及系统

专利一种不良语料过滤方法以及系统