说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211285114.6 (22)申请日 2022.10.20 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 徐晓健  (74)专利代理 机构 北京三友知识产权代理有限 公司 11127 专利代理师 吕俊刚 安然 (51)Int.Cl. G06F 16/535(2019.01) G06F 16/55(2019.01) G06F 16/58(2019.01) G06V 10/74(2022.01) (54)发明名称 图片数据集清洗方法及装置 (57)摘要 本发明提供了一种图片数据集清洗方法及 装置, 可用于金融领域或其他领域。 所述方法包 括: 对待处理的图片数据集进行类别划分处理, 得到多个子数据集; 利用各子数据集中的图片, 对预先建立的人工智能模型进行多轮模型训练, 得到各图片 对应的损失值及损失值下降比例; 根 据所述损失值及所述损失值下降比例, 对各子数 据集中的图片进行清洗处理, 并利用清洗处理后 的子数据集, 得到清洗后的图片数据集。 本发明 通过对数据集进行划分, 并利用损失值对数据集 进行清洗, 提升了清洗效率, 图片数据清洗速度 快、 错误率低, 可节约大量时间成本及人力成本, 并具有高度可迁移性, 迁移成本低, 适用范围广、 普及成本低等优点。 权利要求书2页 说明书7页 附图4页 CN 115510255 A 2022.12.23 CN 115510255 A 1.一种图片数据集清洗方法, 其特 征在于, 所述方法包括: 对待处理的图片数据集进行类别划分处 理, 得到多个子数据集; 利用各子数据集中的图片, 对预先建立的人工智能模型进行多轮模型训练, 得到各图 片对应的损失值及损失值下降比例; 根据所述损 失值及所述损 失值下降比例, 对各子数据集中的图片进行清洗处理, 并利 用清洗处 理后的子数据集, 得到清洗后的图片数据集。 2.根据权利要求1所述的方法, 其特征在于, 所述利用各子数据集中的图片, 对预先建 立的人工智能模型进行多轮模型训练, 得到各图片对应的损失值及损失值下降比例包括: 在多个子数据集中任意选取一个子数据集作为训练数据集, 将训练数据集中的图片输 入至所述人工智能模型进行多轮模型训练, 得到各图片对应的损失值及损失值下降比例。 3.根据权利要求2所述的方法, 其特征在于, 所述将训练数据集中的图片输入至所述人 工智能模型进行多轮模型训练, 得到各图片对应的损失值及损失值下降比例包括: 将训练数据集中的图片输入至所述人工智能模型进行模型训练, 得到各图片对应的输 出结果; 利用各图片对应的标签及输出结果进行 欧氏距离计算, 并将得到的欧氏距离作为当轮 训练损失值; 在各图片完成多轮模型训练后, 利用各图片对应的多个当轮训练损 失值, 确定各图片 对应的损失值及损失值下降比例。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述损失值及所述损失值下降比 例, 对各子数据集中的图片进行清洗处 理包括: 利用所述损 失值对所述训练数据集中图片进行排序, 并根据所述损 失值下降比例, 从 排序后的图片中确定待删除图片; 将所述待删除图片从所述训练数据集中删除, 以完成训练数据集的清洗处 理; 对所述人工智能模型进行参数重 置, 并重新选取训练数据集进行清洗处 理。 5.一种图片数据集清洗装置, 其特 征在于, 所述装置包括: 数据集模块, 用于对待处 理的图片数据集进行类别划分处 理, 得到多个子数据集; 损失值模块, 用于利用各子数据集中的图片, 对预先建立的人工智能模型进行多轮模 型训练, 得到各图片对应的损失值及损失值下降比例; 清洗处理模块, 用于根据所述损 失值及所述损 失值下降比例, 对各子数据集中的图片 进行清洗处 理, 并利用清洗处 理后的子数据集, 得到清洗后的图片数据集。 6.根据权利要求5所述的装置, 其特征在于, 所述损失值模块还用于在多个子数据集中 任意选取一个子数据集作为训练数据集, 将训练数据集中的图片 输入至所述人工智能模型 进行多轮模型训练, 得到各图片对应的损失值及损失值下降比例。 7.根据权利要求6所述的装置, 其特 征在于, 所述损失值模块包括: 输出结果单元, 用于将训练数据集中的图片输入至所述人工智能模型进行模型训练, 得到各图片对应的输出 结果; 欧氏距离单元, 用于利用各图片对应的标签及输出结果进行欧氏距离计算, 并将得到 的欧氏距离作为当轮训练损失值; 损失值单元, 用于在各图片完成多轮模型训练后, 利用各图片对应的多个当轮训练损权 利 要 求 书 1/2 页 2 CN 115510255 A 2失值, 确定各图片对应的损失值及损失值下降比例。 8.根据权利要求6所述的装置, 其特 征在于, 所述清洗处 理模块包括: 图片排序单元, 用于利用所述损 失值对所述训练数据集中图片进行排序, 并根据所述 损失值下降比例, 从排序后的图片中确定待删除图片; 清洗处理单元, 用于将所述待删除图片从所述训练数据集中删除, 以完成训练数据集 的清洗处 理; 参数重置单元, 用于对所述人工智能模型进行参数重置, 并重新选取训练数据集进行 清洗处理。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述计算机程序时实现权利要求1至4任一项所述方 法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有执行权利 要求1至4任一项所述方法的计算机程序。 11.一种计算机程序产品, 包括计算机程序/指令, 其特征在于, 所述计算机程序/指令 被处理器执行时实现权利要求1至4任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 115510255 A 3

.PDF文档 专利 图片数据集清洗方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图片数据集清洗方法及装置 第 1 页 专利 图片数据集清洗方法及装置 第 2 页 专利 图片数据集清洗方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:22:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。