说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111444911.X (22)申请日 2021.11.30 (65)同一申请的已公布的文献号 申请公布号 CN 113868240 A (43)申请公布日 2021.12.31 (73)专利权人 深圳佑驾创新科技有限公司 地址 518049 广东省深圳市福田区梅林街 道梅都社区中康路136号深圳新一代 产业园1栋401 (72)发明人 刘国清 杨广 王启程 郑伟 孔令宇 杨国武 (74)专利代理 机构 深圳市倡 创专利代理事务所 (普通合伙) 44660 代理人 罗明玉(51)Int.Cl. G06F 16/215(2019.01) G06F 16/28(2019.01) G06N 20/00(2019.01) 审查员 邹玥 (54)发明名称 数据清洗方法及计算机可读存 储介质 (57)摘要 本发明提供了一种数据清洗方法, 包括: 获 取第一数据集和第二数据集, 其中, 第一数据集 的第一数据包括第一原标签, 第二数据集的第二 数据包括第二原标签; 利用第一数据集训练第一 分类器; 利用第二数据集训练第二分类器; 将第 一数据输入第二分类器并获取相应的第一预测 标签; 将第二数据输入第一分类器并获取相应的 第二预测标签; 根据第一预测标签和第一原标签 对第一原标签进行增强处理和弱化处理, 并更新 第一数据; 根据第二预测标签和第二原标签对第 二原标签进行增强处理和弱化处理, 并更新第二 数据; 以及将更新后的第一数据和更新后的第二 数据合并成目标数据集。 本发明技术方案能够有 效对数据集进行清洗, 弱化 错误标签的可信度。 权利要求书2页 说明书7页 附图3页 CN 113868240 B 2022.03.11 CN 113868240 B 1.一种数据清洗方法, 其特 征在于, 所述数据清洗方法包括: 获取第一数据集和第二数据集, 其中, 所述第 一数据集的第 一数据包括第 一原标签, 所 述第二数据集的第二数据包括第二原标签; 利用所述第一数据集训练第一分类 器; 利用所述第二数据集训练第二分类 器; 将所述第一数据输入所述第二分类 器并获取相应的第一预测标签; 将所述第二数据输入所述第一分类 器并获取相应的第二预测标签; 根据所述第一预测标签和所述第一原标签对所述第一原标签进行增强处理和弱化处 理以得到第一增强标签和 第一弱化标签, 并利用所述第一增强标签和所述第一弱化标签更 新所述第一数据, 其中, 利用所述第一增强标签和所述第一弱化标签更新所述第一数据具 体包括: 将所述第一数据的第一原标签更新 为所述第一增强标签; 选取第一数量的第一数据成为第一子数据集, 其中, 所述第一子数据集中的第一子数 据包括所述第一增强标签; 以及 将所述第一子数据的第一增强标签更新 为相应的所述第一弱化标签; 根据所述第二预测标签和所述第二原标签对所述第二原标签进行增强处理和弱化处 理以得到第二增强标签和 第二弱化标签, 并利用所述第二增强标签和所述第二弱化标签更 新所述第二数据; 以及 将更新后的第一数据和更新后的第二数据合并成目标 数据集。 2.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行增强处 理以得到第一增强标签具体包括: 将每一所述第一数据的第一预测标签和第一原标签进行点积运算以得到相应的第一 增强标签。 3.如权利要求2所述的数据清洗方法, 其特征在于, 根据 所述第一预测标签和所述第 一 原标签对所述第一原标签进行弱化处 理以得到第一弱化标签具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的距离; 按照所述距离从远到 近的顺序选取第一数量的第一数据成为第一子数据集; 以及 将所述第一子数据的第一增强标签乘以第一 值以得到所述第一弱化标签。 4.如权利要求3所述的数据清洗方法, 其特征在于, 计算每一所述第 一数据的第 一预测 标签和第一原标签之间的距离具体包括: 计算每一所述第一数据的第一预测标签和第一原标签之间的第一汉明距离 。 5.如权利要求2所述的数据清洗方法, 其特征在于, 将每一所述第 一数据的第 一预测标 签和第一原标签进行点积运算以得到相应的第一增强标签之后, 所述数据清洗方法还包 括: 对所述第一增强标签进行归一 化处理。 6.如权利要求1所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行增强处理以得到第二增强标签, 并利用所述第二增强标签更 新所述第二数据具体包括: 将每一所述第二数据的第二预测标签和第二原标签进行点积运算以得到相应的第二权 利 要 求 书 1/2 页 2 CN 113868240 B 2增强标签; 以及 将所述第二数据的第二原标签更新 为所述第二增强标签。 7.如权利要求6所述的数据清洗方法, 其特征在于, 根据 所述第二预测标签和所述第 二 原标签对所述第二原标签进行弱化处理以得到第二弱化标签, 并利用所述第二弱化标签更 新所述第二数据具体包括: 计算每一所述第二数据的第二预测标签和第二原标签之间的距离; 按照所述距离从远到近的顺序选取第二数量的第二数据成为第二子数据集, 其中, 所 述第二子数据集中的第二子数据包括所述第二增强标签; 将所述第二子数据的第二增强标签乘以第二 值以得到所述第二弱化标签; 以及 将所述第二子数据的第二增强标签更新 为相应的所述第二弱化标签。 8.如权利要求6所述的数据清洗方法, 其特征在于, 将每一所述第 二数据的第 二预测标 签和第二原标签进行点积运算以得到相应的第二增强标签之后, 所述数据清洗方法还包 括: 对所述第二增强标签进行归一 化处理。 9.如权利要求1所述的数据清洗方法, 其特征在于, 获取第 一数据集和第 二数据集具体 包括: 获取样本数据集; 以及 将所述样本数据集中的数据随机均分为所述第一数据集和所述第二数据集。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质用于存储程序指 令, 所述程序指令可被处 理器执行以实现如权利要求1至9中任一项所述的数据清洗方法。权 利 要 求 书 2/2 页 3 CN 113868240 B 3
专利 数据清洗方法及计算机可读存储介质
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 01:22:12
上传分享
举报
下载
原文档
(586.2 KB)
分享
友情链接
T-CNLIC 0089—2023 绿色设计产品评价技术规范 家具用软质聚氨酯泡沫塑料.pdf
信息安全工程师 每日一记 高频考点口袋书 2022适用 .pdf
T-ZNZ 189—2023 水产品中生物胺的测定 液相色谱-串联质谱法.pdf
GB-T 17873-2014 纯氖和高纯氖.pdf
XF 979-2012 D类干粉灭火剂.pdf
T-CSIA 014—2023 开放式景区消防安全评估导则.pdf
GB-T 6680-2003 液体化工产品采样通则.pdf
JR-T0120_3-2016 银行卡受理终端安全规范 第3部分:自助终端.pdf
GB-T 43806-2024 资产管理系统通用技术要求.pdf
等级保护方案说明-20211014.pdf
DB31-T 444-2022 排水管道电视和声呐检测评估技术规程 上海市.pdf
T-CEC 596—2022 量子IPSec VPN设备功能与检测技术规范.pdf
奇安信 API安全能力建设桔皮书.pdf
安恒 等保&商用密码整体解决方案 2022.pdf
GB-T 42461-2023 信息安全技术 网络安全服务成本度量指南.pdf
GB-T 35307-2023 流化床法颗粒硅.pdf
DB37-T 3642-2019 全氟己酮灭火系统设计、施工及验收规范 山东省.pdf
GB-T 25341.1-2019 铁路旅客运输服务质量 第1部分:总则.pdf
GB-T 8013.1-2018 铝及铝合金阳极氧化膜与有机聚合物膜 第1部分:阳极氧化膜.pdf
GB-T 25066-2020 信息安全技术 信息安全产品类别与代码.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(586.2 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。