说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111645883.8 (22)申请日 2021.12.3 0 (71)申请人 以萨技术股份有限公司 地址 266000 山东省青岛市黄岛区灵山 卫 街道办事处灵岩路7 7号 (72)发明人 李文昊 李凡平 石柱国 盛校粼  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 代理人 刘文强 (51)Int.Cl. G06F 16/215(2019.01) G06K 9/62(2022.01) (54)发明名称 训练数据集的清洗方法、 装置及服 务器 (57)摘要 本发明提供了一种训练数据集的清洗方法、 装置及服务器, 包括: 获取待清洗的训练数据集; 其中, 训练数据集包括多个训练样 本和每个训练 样本标注的第一标签; 通过预先训练得到的聚类 模型对训练数据集进行聚类处理, 确定多个样本 聚类簇和每个样本聚类簇对应的第二标签; 根据 第一标签和第二标签清洗训练数据集, 得到目标 训练数据集。 本发明可以有效、 快速地对训练数 据集进行清洗 。 权利要求书2页 说明书10页 附图2页 CN 114398350 A 2022.04.26 CN 114398350 A 1.一种训练数据集的清洗方法, 其特 征在于, 包括: 获取待清洗的训练数据集; 其中, 所述训练数据集包括多个训练样本和每个所述训练 样本标注的第一标签; 通过预先训练得到的聚类模型对所述训练数据集进行聚类处理, 确定多个样本聚类簇 和每个所述样本聚类簇对应的第二标签; 根据所述第一标签和所述第二标签清洗所述训练数据集, 得到目标训练数据集。 2.根据权利要求1所述的方法, 其特征在于, 所述 聚类模型包括特征提取模块和多层感 知器, 所述特征提取模块包括多个特征提取子模块, 每个所述特征提取子模块的网络结构 不同; 所述通过预先训练得到的聚类模型对所述训练数据集进行聚类处理, 确定多个样本聚 类簇和每 个所述样本聚类簇对应的第二标签的步骤, 包括: 通过每个所述特 征提取子模块分别提取 所述训练样本的特 征信息; 基于每个所述特征提取子模块输出的所述特征信息, 计算样本对的关系数据; 其中, 所 述关系数据包括 边关系、 特征相似度、 局部结构均值和 局部结构方差值中的一种或多种; 通过所述多层感知器基于所述样本对的关系数据, 从所述样本对中确定所述边关系成 立的目标样本对; 基于所述目标样本对, 确定多个样本聚类簇和每 个所述样本聚类簇对应的第二标签。 3.根据权利要求2所述的方法, 其特征在于, 所述基于每个所述特征提取子模块输出的 所述特征信息, 计算样本对的关系数据的步骤, 包括: 对于每个所述特征提取子模块, 基于该特征提取子模块输出的所述特征信息, 构建该 特征提取子模块对应的K ‑NN图; 其中, 所述K ‑NN图用于表征所述训练样本之间的特征相 似 度; 对于每个所述K ‑NN图, 基于该K ‑NN图计算样本对的关系数据; 其 中, 所述样本对为所述 K‑NN图中连接的两个所述训练样本 。 4.根据权利要求3所述的方法, 其特征在于, 所述基于该特征提取子模块输出的所述特 征信息, 构建该 特征提取子模块对应的K ‑NN图的步骤, 包括: 所述基于该特征提取子模块输出的所述特征信 息, 计算任意两个所述训练样本之间的 特征相似度; 根据所述特 征相似度, 确定每 个所述训练样本之间的连接关系; 按照所述连接关系连接每 个所述训练样本, 得到该 特征提取子模块对应的K ‑NN图。 5.根据权利要求3所述的方法, 其特征在于, 所述对于每个所述K ‑NN图, 基于该K ‑NN图 计算样本对的关系数据的步骤, 包括: 如果所述关系数据包括所述边关系, 判断该K ‑NN图中所述样本对是否连接; 如果是, 确 定所述边关系为第一数值; 如果否, 确定所述 边关系为第二数值; 或, 如果所述关系数据包括所述特征相似度, 根据该K ‑NN图中表征的所述样本对中每 个所述训练样本的特 征信息, 计算所述样本对的特 征相似度; 或, 如果所述关系数据包括所述局部结构均值或所述局部结构方差值, 对于所述样本 对中的每个所述训练样本, 按照该训练样本与除所述样本对之外的其他训练样本之 间的特 征相似度由高到低的顺序构建相似度集合; 将每个所述训练样本对应的相似度集合作为所权 利 要 求 书 1/2 页 2 CN 114398350 A 2述局部结构, 并对所述局部结构进行统计处 理得到局部结构均值或局部结构方差值。 6.根据权利要求2所述的方法, 其特征在于, 所述基于所述目标样本对, 确定多个样本 聚类簇和每 个所述样本聚类簇对应的第二标签的步骤, 包括: 按照每个所述目标样本对的边关系, 连接所述训练数据集中的每个所述训练样本, 得 到多个连通子图; 对于每个所述连通子图, 判断该 连通子图中包 含训练样本的数量是否大于预设阈值; 如果是, 从所述连通子 图中确定特征相似度最低的目标样本对, 并取消所述目标样本 对中两个所述训练样本的连接, 直至所述连通子图中包含训练样本的数量小于或等于所述 预设阈值, 得到多个样本聚类簇; 对于每个所述样本聚类簇, 根据该样本聚类簇中每个所述训练样本标注的第一标签, 确定该样本聚类簇对应的第二标签。 7.根据权利要求2所述的方法, 其特征在于, 所述根据所述第 一标签和所述第 二标签清 洗所述训练数据集, 得到目标训练数据集的步骤, 包括: 对于每个所述训练样本, 判断该训练样本标注的所述第 一标签和该训练样本所属样本 聚类簇对应的第二标签是否一 致; 如果否, 确定该训练样本为噪声样本, 并从所述训练数据集中删除所述噪声样本; 将删除所述噪声样本的训练数据集, 确定为目标训练数据集。 8.一种训练数据集的清洗装置, 其特 征在于, 包括: 数据集获取模块, 用于获取待清洗的训练数据集; 其中, 所述训练数据集包括多个训练 样本和每 个所述训练样本标注的第一标签; 聚类模块, 用于通过预先训练得到的聚类模型对所述训练数据集进行聚类处理, 确定 多个样本聚类簇和每 个所述样本聚类簇对应的第二标签; 清洗模块, 用于根据所述第一标签和所述第二标签清洗所述训练数据集, 得到目标训 练数据集。 9.一种服务器, 其特征在于, 包括处理器和存储器, 所述存储器存储有能够被所述处理 器执行的计算机可执行指 令, 所述处理器执行所述计算机可执行指 令以实现权利要求 1至7 任一项所述的方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机可 执行指令, 所述计算机可执行指令在被处理器调用和执行时, 计算机可执行指令促使处理 器实现权利要求1至7任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114398350 A 3

.PDF文档 专利 训练数据集的清洗方法、装置及服务器

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 训练数据集的清洗方法、装置及服务器 第 1 页 专利 训练数据集的清洗方法、装置及服务器 第 2 页 专利 训练数据集的清洗方法、装置及服务器 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:44:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。