专利训练数据集的清洗方法、装置及服务器

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111645883.8 (22)申请日 2021.12.3 0 (71)申请人以萨技术股份有限公司地址 266000 山东省青岛市黄岛区灵山卫街道办事处灵岩路7 7号 (72)发明人李文昊　李凡平　石柱国　盛校粼　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人刘文强 (51)Int.Cl. G06F 16/215(2019.01) G06K 9/62(2022.01) (54)发明名称训练数据集的清洗方法、装置及服务器 (57)摘要本发明提供了一种训练数据集的清洗方法、装置及服务器，包括：获取待清洗的训练数据集；其中，训练数据集包括多个训练样本和每个训练样本标注的第一标签；通过预先训练得到的聚类模型对训练数据集进行聚类处理，确定多个样本聚类簇和每个样本聚类簇对应的第二标签；根据第一标签和第二标签清洗训练数据集，得到目标训练数据集。本发明可以有效、快速地对训练数据集进行清洗。权利要求书2页说明书10页附图2页 CN 114398350 A 2022.04.26 CN 114398350 A 1.一种训练数据集的清洗方法，其特征在于，包括：获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。 2.根据权利要求1所述的方法，其特征在于，所述聚类模型包括特征提取模块和多层感知器，所述特征提取模块包括多个特征提取子模块，每个所述特征提取子模块的网络结构不同；所述通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：通过每个所述特征提取子模块分别提取所述训练样本的特征信息；基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据；其中，所述关系数据包括边关系、特征相似度、局部结构均值和局部结构方差值中的一种或多种；通过所述多层感知器基于所述样本对的关系数据，从所述样本对中确定所述边关系成立的目标样本对；基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签。 3.根据权利要求2所述的方法，其特征在于，所述基于每个所述特征提取子模块输出的所述特征信息，计算样本对的关系数据的步骤，包括：对于每个所述特征提取子模块，基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K ‑NN图；其中，所述K ‑NN图用于表征所述训练样本之间的特征相似度；对于每个所述K ‑NN图，基于该K ‑NN图计算样本对的关系数据；其中，所述样本对为所述 K‑NN图中连接的两个所述训练样本。 4.根据权利要求3所述的方法，其特征在于，所述基于该特征提取子模块输出的所述特征信息，构建该特征提取子模块对应的K ‑NN图的步骤，包括：所述基于该特征提取子模块输出的所述特征信息，计算任意两个所述训练样本之间的特征相似度；根据所述特征相似度，确定每个所述训练样本之间的连接关系；按照所述连接关系连接每个所述训练样本，得到该特征提取子模块对应的K ‑NN图。 5.根据权利要求3所述的方法，其特征在于，所述对于每个所述K ‑NN图，基于该K ‑NN图计算样本对的关系数据的步骤，包括：如果所述关系数据包括所述边关系，判断该K ‑NN图中所述样本对是否连接；如果是，确定所述边关系为第一数值；如果否，确定所述边关系为第二数值；或，如果所述关系数据包括所述特征相似度，根据该K ‑NN图中表征的所述样本对中每个所述训练样本的特征信息，计算所述样本对的特征相似度；或，如果所述关系数据包括所述局部结构均值或所述局部结构方差值，对于所述样本对中的每个所述训练样本，按照该训练样本与除所述样本对之外的其他训练样本之间的特征相似度由高到低的顺序构建相似度集合；将每个所述训练样本对应的相似度集合作为所权　利　要　求　书 1/2 页 2 CN 114398350 A 2述局部结构，并对所述局部结构进行统计处理得到局部结构均值或局部结构方差值。 6.根据权利要求2所述的方法，其特征在于，所述基于所述目标样本对，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签的步骤，包括：按照每个所述目标样本对的边关系，连接所述训练数据集中的每个所述训练样本，得到多个连通子图；对于每个所述连通子图，判断该连通子图中包含训练样本的数量是否大于预设阈值；如果是，从所述连通子图中确定特征相似度最低的目标样本对，并取消所述目标样本对中两个所述训练样本的连接，直至所述连通子图中包含训练样本的数量小于或等于所述预设阈值，得到多个样本聚类簇；对于每个所述样本聚类簇，根据该样本聚类簇中每个所述训练样本标注的第一标签，确定该样本聚类簇对应的第二标签。 7.根据权利要求2所述的方法，其特征在于，所述根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集的步骤，包括：对于每个所述训练样本，判断该训练样本标注的所述第一标签和该训练样本所属样本聚类簇对应的第二标签是否一致；如果否，确定该训练样本为噪声样本，并从所述训练数据集中删除所述噪声样本；将删除所述噪声样本的训练数据集，确定为目标训练数据集。 8.一种训练数据集的清洗装置，其特征在于，包括：数据集获取模块，用于获取待清洗的训练数据集；其中，所述训练数据集包括多个训练样本和每个所述训练样本标注的第一标签；聚类模块，用于通过预先训练得到的聚类模型对所述训练数据集进行聚类处理，确定多个样本聚类簇和每个所述样本聚类簇对应的第二标签；清洗模块，用于根据所述第一标签和所述第二标签清洗所述训练数据集，得到目标训练数据集。 9.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求 1至7 任一项所述的方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114398350 A 3

专利 训练数据集的清洗方法、装置及服务器

专利训练数据集的清洗方法、装置及服务器