说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211079086.2 (22)申请日 2022.09.05 (71)申请人 中国银行股份有限公司 地址 100818 北京市西城区复兴门内大街1 号 (72)发明人 严文莉  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 曹伟 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2455(2019.01) G06F 16/25(2019.01) G06K 9/62(2022.01) (54)发明名称 一种数据核 验方法及装置 (57)摘要 本申请公开了一种数据核验方法及装置, 可 应用于人工智能领域、 大数据领域或金融领域。 该方法包括: 将目标数据输入孤立森林模型, 获 得目标数据中的异常数据; 将预设规则库中的多 个规则与异常数据进行匹配; 当多个规则中的目 标规则与异常数据匹配, 且目标规则指示异常数 据存在异常时, 发送异常数据报警信息。 一方面 可以通过孤立森林模型对大量的目标数据进行 快速检测, 减少了正常数据的核验成本, 快速定 位可能存在异常的数据; 另一方面通过预设规则 库中的多个规则与异常数据进行匹配, 提高异常 数据的检测准确性。 权利要求书1页 说明书6页 附图1页 CN 115408378 A 2022.11.29 CN 115408378 A 1.一种数据核验方法, 其特 征在于, 包括: 将目标数据输入孤立森林模型, 获得 所述目标 数据中的异常数据; 将预设规则库中的多个规则与所述异常数据进行匹配; 当所述多个规则中的目标规则与 所述异常数据匹配, 且所述目标规则指示所述异常数 据存在异常时, 发送 异常数据报警信息 。 2.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 当所述多个规则中的目标规则与 所述异常数据匹配, 且所述目标规则指示所述异常数 据不存在异常时, 根据所述异常数据更新所述孤立森林模型。 3.根据权利要求1所述的方法, 其特性在于, 所述方法还 包括: 当所述多个规则中不存在规则与 所述异常数据匹配时, 获取所述异常数据对应的业务 场景; 呈现所述异常数据和所述异常数据对应的业务场景, 以使工作 人员判断所述异常数据 是否存在异常。 4.根据权利要求3所述的方法, 其特 征在于, 还 包括: 当所述工作 人员判断所述异常数据不存在异常时, 根据 所述异常数据 更新所述孤立森 林模型。 5.根据权利要求3所述的方法, 其特 征在于, 还 包括: 当所述工作人员判断所述异常数据存在异常时, 发送 异常数据报警信息 。 6.根据权利要求5所述的方法, 其特 征在于, 还 包括: 当所述工作 人员判断所述异常数据存在异常时, 根据所述异常数据更新所述预设规则 库。 7.根据权利要求1所述的方法, 其特 征在于, 还 包括: 将所述目标 数据进行清理, 减少所述目标 数据中的噪声数据; 对所述目标数据进行降重, 删除所述目标数据中的重复数据和相似度 大于预设阈值的 数据。 8.一种数据核验 装置, 其特 征在于, 包括: 输入模块, 用于将目标 数据输入孤立森林模型, 获得 所述目标 数据中的异常数据; 匹配模块, 用于将预设规则库中的多个规则与所述异常数据进行匹配; 发送模块, 用于当多个规则中的目标规则与异常数据匹配, 且目标规则指示异常数据 存在异常时, 发送 异常数据报警信息 。 9.根据权利要求8所述的装置, 其特 征在于, 所述装置还 包括: 第一更新模块, 用于当所述多个规则中的目标规则与所述异常数据匹配, 且所述目标 规则指示所述异常数据不存在异常时, 根据所述异常数据更新所述孤立森林模型。 10.根据权利要求8所述的装置, 其特性在于, 所述装置还 包括: 获得模块, 用于当所述多个规则中不存在规则与所述异常数据匹配时, 获取所述异常 数据对应的业 务场景; 呈现模块, 用于呈现所述异常数据和所述异常数据对应的业务场景, 以使工作人员判 断所述异常数据是否存在异常。权 利 要 求 书 1/1 页 2 CN 115408378 A 2一种数据核 验方法及装置 技术领域 [0001]本申请涉及计算机技 术领域, 尤其涉及一种数据核验方法及装置 。 背景技术 [0002]企业的数据湖集中存储的业务系统数据、 企业在外购买及爬取的数据。 随着企业 的发展, 企业中数据治理项目不断建设, 企业的数据湖中的数据量不断增加。 随之而来的数 据质量问题存在于数据整个生命周期内各个环节, 数据治理工作中重要的一环就是发现数 据质量问题, 并对数据质量问题进行整改。 目前, 本领域急需一种核验异常数据的方法, 确 定具有异常的数据, 从而对其进行整改。 发明内容 [0003]为了解决上述技术问题, 本申请提供了一种数据核验方法及装置, 用于确定具有 异常的数据。 [0004]为了实现上述目的, 本申请实施例提供的技 术方案如下: [0005]本申请实施例提供一种数据核验方法, 包括: [0006]将目标数据输入孤立森林模型, 获得目标 数据中的异常数据; [0007]将预设规则库中的多个规则与异常数据进行匹配; [0008]当所述多个规则中的目标规则与所述异常数据匹配, 且所述目标规则指示所述异 常数据存在异常时, 发送 异常数据报警信息 。 [0009]作为一种可能的实施方式, 本申请实施例提供的数据核验方法还 包括: [0010]当所述多个规则中的目标规则与所述异常数据匹配, 且所述目标规则指示所述异 常数据不存在异常时, 根据所述异常数据更新所述孤立森林模型。 [0011]作为一种可能的实施方式, 本申请实施例提供的数据核验方法还 包括: [0012]当多个规则中不存在规则与异常数据匹配时, 获取异常数据对应的业 务场景; [0013]呈现异常数据和异常数据对应的业务场景, 以使工作人员判断异常数据是否存在 异常。 [0014]作为一种可能的实施方式, 本申请实施例提供的数据核验方法还包括: 当工作人 员判断异常数据不存在异常时, 根据异常数据更新孤立森林模型。 [0015]作为一种可能的实施方式, 本申请实施例提供的数据核验还包括: 当工作人员判 断异常数据存在异常时, 发送 异常数据报警信息 。 [0016]作为一种可能的实施方式, 本申请实施例提供的数据核验方法还包括: 当工作人 员判断异常数据存在异常时, 根据异常数据更新预设规则库。 [0017]作为一种可能的实施方式, 本申请实施例提供的数据核验方法还 包括: [0018]将目标数据进行清理, 减少目标 数据中的噪声数据; [0019]对目标数据进行降重, 删 除目标数据中的重复数据和相似度大于预设阈值的数 据。说 明 书 1/6 页 3 CN 115408378 A 3

.PDF文档 专利 一种数据核验方法及装置

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据核验方法及装置 第 1 页 专利 一种数据核验方法及装置 第 2 页 专利 一种数据核验方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:00:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。