专利文本分类标注样本的异常检测方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210749204.X (22)申请日 2022.06.28 (71)申请人达而观信息科技（上海）有限公司地址 201203 上海市浦东新区中国（上海）自由贸易试验区亮秀路112号B座301、 303、 304室 (72)发明人张健　王子豪　王子　唐家英　陈运文　纪达麒　 (74)专利代理机构北京品源专利代理有限公司 11332 专利代理师严慧 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06F 40/30(2020.01) (54)发明名称文本分类标注样本的异常检测方法、装置、设备及介质 (57)摘要本发明实施例公开了一种文本分类标注样本的异常检测方法、装置、设备及介质。该方法包括：获取待去噪的文本分类标注数据集；计算两两文本分类标注数据之间的语义相似度，对文本分类标注数据集进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的各文本分类标注数据进行二次聚类，得到与每个聚类簇分别对应的分类子簇；根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比，识别异常分类子簇。本发明实施例，解决了由于样本去噪模型识别准确率低而造成工作人员工作量大，以及样本去噪没有解释性说明的问题，实现了能够有效地对文本分类标注样本进行异常检测，提高了样本去噪的准确率，降低了样本去噪的人力成本。权利要求书2页说明书10页附图3页 CN 115098679 A 2022.09.23 CN 115098679 A 1.一种文本分类标注样本的异常检测方法，其特征在于，包括：获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；计算两两文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集进行聚类处理，得到至少一个聚类簇；在每个聚类簇中，对相同分类标签的各文本分类标注数据进行二次聚类，得到与每个聚类簇分别对应的分类子簇；根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比，识别异常分类子簇。 2.根据权利要求1所述的方法，其特征在于，计算两两文本分类标注数据之间的语义相似度，包括：将两两文本分类标注数据分别输入至预先训练的语义相似度模型中，获取所述两两文本分类标注数据之间的语义相似度。 3.根据权利要求2所述的方法，其特征在于，在将两两文本分类标注数据分别输入至预先训练的语义相似度模型中之前，还包括：将获取到的两个样本分类标注数据分别输入至参数共享层，得到两个样本分类标注数据分别对应的多个字向量；将第一样本分类标注数据对应的各所述字向量输入至池化层，得到第一样本分类标注数据向量，将第二样本分类标注数据对应的各所述字向量输入至池化层，得到第二样本分类标注数据向量；计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值，得到样本分类标注数据差值向量；拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量，得到样本分类标注数据拼接向量；将样本分类标注数据拼接向量输入至语义分类器中来训练，训练完成之后得到语义相似度模型。 4.根据权利要求1所述的方法，其特征在于，根据语义相似度计算结果，对所述文本分类标注数据集进行聚类处理，得到至少一个聚类簇，包括：根据所述语义相似度计算结果，构建得到语义相似度矩阵，其中所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度；在所述文本分类标注数据集中，获取一个未处理的目标数据，并标注所述目标数据为已处理状态；以所述目标数据为起点，查询所述语义相似度矩阵，逐次遍历与所述目标数据的全部密度相连数据；将所述目标数据与各所述密度相连数据共同组成一个聚类簇，并标注各所述密度相连数据的已处理状态；返回执行在所述文本分类标注数据集中，获取一个未处理的目标数据的操作，直至完成对全部文本分类标注数据的处理。 5.根据权利要求4所述的方法，其特征在于，根据语义相似度计算结果，对所述文本分类标注数据集进行聚类处理，得到至少一个聚类簇之后，还包括：权　利　要　求　书 1/2 页 2 CN 115098679 A 2将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比，识别异常分类子簇，包括：统计在当前分类子簇中文本各分类标注数据的数量，并计算各分类标注数据的数量占所属聚类簇中的数量的占比权重值；判断各占比权重值是否大于预设的占比权重过滤阈值，若否，则将当前分类子簇中文本各分类标注数据识别为异常分类子簇。 7.根据权利要求1 ‑5任一项所述的方法，其特征在于，在根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比，识别异常分类子簇之后，还包括：分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签，并反馈给用户。 8.一种文本分类标注样本的异常检测装置，其特征在于，包括：文本分类标注数据集获取模块，用于获取待去噪的文本分类标注数据集，其中，每个文本分类标注数据中包括分类标签；聚类簇确定模块，用于计算两两文本分类标注数据之间的语义相似度，并根据语义相似度计算结果，对所述文本分类标注数据集进行聚类处理，得到至少一个聚类簇；分类子簇确定模块，用于在每个聚类簇中，对相同分类标签的各文本分类标注数据进行二次聚类，得到与每个聚类簇分别对应的分类子簇；异常分类子簇识别模块，用于根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比，识别异常分类子簇。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1‑7中任一项所述的文本分类标注样本的异常检测方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1 ‑7中任一所述的文本分类标注样本的异常检测方法。权　利　要　求　书 2/2 页 3 CN 115098679 A 3

专利 文本分类标注样本的异常检测方法、装置、设备及介质

专利文本分类标注样本的异常检测方法、装置、设备及介质