说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210905334.8 (22)申请日 2022.07.29 (71)申请人 浙江工商大 学 地址 310000 浙江省杭州市下沙高教园区 学正街18号 (72)发明人 蒋晓宁 刘凯 程凯林 周郁寒  谢洪民  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 王榧 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/279(2020.01) G06K 9/62(2022.01)G06N 20/00(2019.01) (54)发明名称 一种不良语料过滤方法以及系统 (57)摘要 本发明公开了一种不良语料过滤方法以及 系统, 其中方法包括以下步骤: 获取待识别文本 语料, 对所述待识别文本语料进行预处理, 得到 基础文本语料; 抽取基础文本语料中的实体, 根 据不良文本知识 图谱对所述基础文本语料的实 体进行匹配搜索, 得到第一识别结果; 根据语料 识别模型对基础文本语料进行检测识别, 得到第 二识别结果; 根据第一识别结果或/和所述第二 识别结果过滤所述待识别文本语料, 并根据所述 第二识别结果对不良文本知识图谱进行更新。 本 发明通过知识图谱技术对不良文本进行筛选, 利 用其语义网络本质和强大关联能力, 能够获取多 个候选不良实体有利于实现对拼音、 谐音和拆分 词等形式的隐晦不良信息的过滤。 权利要求书2页 说明书6页 附图1页 CN 115544204 A 2022.12.30 CN 115544204 A 1.一种不良语料 过滤方法, 其特 征在于, 包括以下步骤: 获取待识别文本语料, 对所述待识别文本语料进行 预处理, 得到基础文本语料; 抽取所述基础文本语料中的实体, 根据不良文本知识图谱对所述基础文本语料的实体 进行匹配搜索, 得到第一识别结果; 根据语料识别模型对所述基础文本语料进行检测识别, 得到第二识别结果; 根据所述第一识别结果或/和所述第二识别结果过滤所述待识别文本语料, 并根据所 述第二识别结果对不良文本知识图谱进行 更新。 2.根据权利要求1所述的不良语料过滤方法, 其特征在于, 所述不良文本知识图谱的构 建包括: 获取大量在网络平台中的原始不良文本信息, 抽取所述原始不良文本信息的实体, 得 到若干不良词实体; 对所述不良词实体进行实体转换处 理, 得到不良词拼音实体和不良词谐音实体; 按照拼音转换、 谐音转换和词性词频对所述不良词实体、 不良词拼音实体和不良词谐 音实体进行关系抽取, 并通过实体消歧处 理进行三元组构建, 得到不良文本知识图谱。 3.根据权利要求1所述的不良语料过滤方法, 其特征在于, 得到第一识别结果, 具体包 括: 根据所述不良文本知识图谱筛选所述基础文本语料 的实体, 按预设数量获取若干候选 不良实体; 利用word2vec模型将所述基础文本语料和所述候选不良实体映射成多维向量, 根据余 弦相似度计算方法计算所述基础文本语料与所述候选不良实体的相似度, 根据所述相似度 得到第一识别结果。 4.根据权利要求1所述的不良语料过滤方法, 其特征在于, 所述语料识别模型为KNN模 型。 5.根据权利要求4所述的不良语料过滤方法, 其特征在于, 所述语料识别模型的构建包 括: 获取用户反馈的不良信息, 采集 正常语料信息; 对所述不良信 息以及正常语料信 息逐词进行拼音转换和 谐音转换, 得到拼音语料信 息 和谐音语料信息; 将所述不良信息、 正常语料信息、 拼音语料信息和谐音语料信息作为样本集划分为训 练集和测试集, 并将所述样本集 通过word2vec模型映射 为空间向量; 利用KNN模型对映射 为空间向量的训练集进行训练, 获得语料识别模型。 6.根据权利要求2所述的不良语料过滤方法, 其特征在于, 对所述不良词实体进行实体 转换处理, 得到不良词拼音实体和不良词谐音实体, 包括: 对所述不良词实体进行拼音转换, 将不良词实体的汉字逐词进行拼音转换, 得到不良 词拼音实体; 对所述不良词实体进行谐音转换, 将不良词实体的汉字逐词进行谐音转换, 得到不良 词谐音实体。 7.根据权利要求1所述的不良语料过滤方法, 其特征在于, 所述待识别文本语料包括弹 幕评论和留言评论。 8.根据权利要求1所述的不良语料过滤方法, 其特征在于, 所述预处理包括分词处理、权 利 要 求 书 1/2 页 2 CN 115544204 A 2停用词处 理和虚词处 理。 9.一种不良语料 过滤系统, 其特 征在于, 包括: 信息获取模块, 用于获取待识别文本语料; 预处理模块, 用于对所述待识别文本语料进行 预处理, 得到基础文本语料; 图数据库, 用于存 储不良文本知识图谱, 模型库, 用于存 储语料识别模型; 第一识别模块, 用于抽取所述基础文本语料中的实体, 根据不良文本知识图谱对所述 基础文本语料的实体进行匹配搜索, 得到第一识别结果; 第二识别模块, 用于根据语料识别模型对所述基础文本语料进行检测识别, 得到第二 识别结果; 过滤模块, 用于根据所述第一识别结果或所述第二识别结果过滤所述待识别文本语 料; 更新模块, 用于根据所述第二识别结果对不良文本知识图谱进行 更新。 10.根据权利要求9所述的不良语料过滤系统, 其特征在于, 还包括构建模块, 用于构建 不良文本知识图谱以及语料识别模型。权 利 要 求 书 2/2 页 3 CN 115544204 A 3

.PDF文档 专利 一种不良语料过滤方法以及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种不良语料过滤方法以及系统 第 1 页 专利 一种不良语料过滤方法以及系统 第 2 页 专利 一种不良语料过滤方法以及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。