说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210749204.X (22)申请日 2022.06.28 (71)申请人 达而观信息科技 (上海) 有限公司 地址 201203 上海市浦东 新区中国 (上海) 自由贸易试验区亮秀路112号B座301、 303、 304室 (72)发明人 张健 王子豪 王子 唐家英  陈运文 纪达麒  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 严慧 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称 文本分类标注样本的异常检测方法、 装置、 设备及介质 (57)摘要 本发明实施例公开了一种文本分类标注样 本的异常检测方法、 装置、 设备及介质。 该方法包 括: 获取待去噪的文本分类标注数据集; 计算两 两文本分类标注数据之间的语义相似度, 对文本 分类标注数据集进行聚类处理, 得到至少一个聚 类簇; 在每个聚类簇中, 对相同分类标签的各文 本分类标注数据进行二次聚类, 得到与每个聚类 簇分别对应的分类子簇; 根据分类子簇中的文本 分类标注数据在所属聚类簇中的数量占比, 识别 异常分类子簇。 本发明实施例, 解决了由于样本 去噪模型识别准确率低而造成工作人员工作量 大, 以及样本去噪没有解释性说明的问题, 实现 了能够有效地对文本分类标注样本进行异常检 测, 提高了样本去噪的准确率, 降低了样本去噪 的人力成本 。 权利要求书2页 说明书10页 附图3页 CN 115098679 A 2022.09.23 CN 115098679 A 1.一种文本分类标注样本的异常检测方法, 其特 征在于, 包括: 获取待去噪的文本分类标注数据集, 其中, 每 个文本分类标注数据中包括分类标签; 计算两两文本分类标注数据之间的语义相似度, 并根据语义相似度计算结果, 对所述 文本分类标注数据集进行聚类处 理, 得到至少一个聚类簇; 在每个聚类簇中, 对相同分类标签的各文本分类标注数据进行二次聚类, 得到与每个 聚类簇分别对应的分类子 簇; 根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比, 识别异常分类子 簇。 2.根据权利要求1所述的方法, 其特征在于, 计算两两文本分类标注数据之间的语义相 似度, 包括: 将两两文本分类标注数据分别输入至预先训练的语义相似度模型中, 获取所述两两文 本分类标注数据之间的语义相似度。 3.根据权利要求2所述的方法, 其特征在于, 在将两两文本分类标注数据分别 输入至预 先训练的语义相似度模型中之前, 还 包括: 将获取到的两个样本分类标注数据分别输入至参数共享层, 得到两个样本分类标注数 据分别对应的多个字向量; 将第一样本分类标注数据对应的各所述字向量输入至池化层, 得到第 一样本分类标注 数据向量, 将第二样本分类标注数据对应的各所述字 向量输入至池化层, 得到第二样本分 类标注数据向量; 计算第一样本分类标注数据向量和第 二样本分类标注数据向量的差值的绝对值, 得到 样本分类标注数据差值向量; 拼接第一样本分类标注数据向量、 第 二样本分类标注数据向量以及样本分类标注数据 差值向量, 得到样本分类标注数据拼接向量; 将样本分类标注数据拼接向量输入至语义分类器中来训练, 训练完成之后得到语义相 似度模型。 4.根据权利要求1所述的方法, 其特征在于, 根据语义相似度计算结果, 对所述文本分 类标注数据集进行聚类处 理, 得到至少一个聚类簇, 包括: 根据所述语义相似度计算结果, 构建得到语义相似度矩阵, 其中所述语义相似度矩阵 中的一个矩阵元 素为两个文本分类标注数据之间的语义相似度; 在所述文本分类标注数据集中, 获取一个未处理的目标数据, 并标注所述目标数据为 已处理状态; 以所述目标数据为起点, 查询所述语义相似度矩阵, 逐次遍历与所述目标数据的全部 密度相连 数据; 将所述目标数据与 各所述密度相连数据共同组成一个聚类簇, 并标注各所述密度相连 数据的已处 理状态; 返回执行在所述文本分类标注数据集中, 获取一个未处理的目标数据的操作, 直至完 成对全部文本分类标注数据的处 理。 5.根据权利要求4所述的方法, 其特征在于, 根据语义相似度计算结果, 对所述文本分 类标注数据集进行聚类处 理, 得到至少一个聚类簇之后, 还 包括:权 利 要 求 书 1/2 页 2 CN 115098679 A 2将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 根据分类子簇中的文本分类标注 数据在所属聚类簇中的数量占比, 识别异常 分类子簇, 包括: 统计在当前分类子簇中文本各分类标注数据的数量, 并计算各分类标注数据的数量占 所属聚类簇中的数量的占比权 重值; 判断各占比权重值是否大于预设的占比权重过滤阈值, 若否, 则将当前分类子簇中文 本各分类标注数据识别为异常 分类子簇。 7.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 在根据分类子簇中的文本分类标 注数据在所属聚类簇中的数量占比, 识别异常 分类子簇之后, 还 包括: 分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签, 并反馈给用 户。 8.一种文本分类标注样本的异常检测装置, 其特 征在于, 包括: 文本分类标注数据集获取模块, 用于获取待去噪的文本分类标注数据集, 其中, 每个文 本分类标注数据中包括分类标签; 聚类簇确定模块, 用于计算两两文本分类标注数据之间的语义相似度, 并根据语义相 似度计算结果, 对所述文本分类标注数据集进行聚类处 理, 得到至少一个聚类簇; 分类子簇确定模块, 用于在每个聚类簇中, 对相同分类标签的各文本分类标注数据进 行二次聚类, 得到与每 个聚类簇分别对应的分类子 簇; 异常分类子簇识别模块, 用于根据分类子簇 中的文本分类标注数据在所属聚类簇 中的 数量占比, 识别异常 分类子簇。 9.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1‑7中任一项 所 述的文本分类标注样本的异常检测方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机程序被 处理器执行时实现如权利要求1 ‑7中任一所述的文本分类标注样本的异常检测方法。权 利 要 求 书 2/2 页 3 CN 115098679 A 3

.PDF文档 专利 文本分类标注样本的异常检测方法、装置、设备及介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本分类标注样本的异常检测方法、装置、设备及介质 第 1 页 专利 文本分类标注样本的异常检测方法、装置、设备及介质 第 2 页 专利 文本分类标注样本的异常检测方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:16上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。