说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210142372.2 (22)申请日 2022.02.16 (71)申请人 数字郑州科技有限公司 地址 450000 河南省郑州市郑东 新区中道 东路6号创意岛大厦C区C -4-029房间 (72)发明人 郑丹辉 王超然 杨强  (74)专利代理 机构 郑州睿信知识产权代理有限 公司 41119 专利代理师 吴敏 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/23(2019.01) G06F 16/242(2019.01) G06F 16/2455(2019.01) G06F 16/248(2019.01) (54)发明名称 一种用于全量数据比对人员信息的方法及 装置 (57)摘要 本发明提供了一种用于全量数据比对人员 信息的方法及装置, 属于数据处理技术领域。 通 过如下步骤对全量数据进行比对: 1)遍历数据表 得到各数据表的表名、 表记录数和数据字段名, 并保存在探查结果全量分区表中; 2)根据人员特 征数据的生成规则, 构建人员特征数据校验函 数; 3)利用所述校验函数, 对探查结果全量分区 表中各字段取值进行校验, 获取存在人员特征数 据的字段; 4)利用所述校验函数对存在人员特征 数据的字段进行遍历, 得到人员特征数据集合; 5)将待查找的人员特征数据在人员特征数据集 合中进行检索, 得到待查找人员在数据仓库中需 要关联的数据集。 本方法能够识别所有字段中的 人员特征数据, 实现对待查找人员关联数据的快 速准确查找。 权利要求书2页 说明书10页 附图5页 CN 114595225 A 2022.06.07 CN 114595225 A 1.一种用于全量数据比对人员信息的方法, 其特征在于, 通过如下步骤对全量数据进 行比对: 1)对数据仓库中数据表 的元数据进行遍历, 得到各数据表的数据表名、 数据表记录条 数以及每 个数据表包 含的数据字段名, 并将结果保存成探查结果全量分区表; 2)根据人员特征数据的生成规则, 构建人员特征数据校验函数, 所述人员特征数据用 于表明人员身份唯一 性; 3)利用所述人员特征数据 校验函数, 对探查结果全量分区表中存储的各表中各字段的 数据记录进行校验, 获取符合人员特征数据校验函数 的字段, 即该字段中存在有人员特征 数据的记录, 实现对人员特 征数据所在字段的定位; 4)对定位的字段中的所有记录进行遍历, 利用所述人员特征数据 校验函数对遍历的记 录中的数据进行 校验, 提取 出人员特征数据, 以得到数据仓库全量人员特 征数据集合; 5)将待查找的人员特征数据在所述数据仓库全量人员特征数据集合中进行检索比对, 找到与待查找的人员特征数据对比一致的数据所在数据表中的位置, 将 每个位置对应的记 录作为该待查找人员在数据仓库中 需要关联的数据集。 2.根据权利要求1所述的用于全量数据比对人员信 息的方法, 其特征在于, 该方法还包 括根据每天探查的得到探查结果全量分区表中各表的数据表记录条数确定各表的未更新 天数, 若未 更新天数超过设定天数, 则步骤5)不再对该表进行全量信息比对。 3.根据权利要求1或2所述的用于全量数据比对人员信息的方法, 其特征在于, 该方法 还包括确定数据仓库中第一类数据表和第二类数据表之 间的相似度, 根据相似度判断筛选 出疑似停用的表, 从疑似停用的表中筛选出停用的表, 将筛选出 的停用表列入数据模型停 用集合, 并在步骤1)不再对停用集合中的数据表进行遍历; 其中第一类数据表指的是未更 新天数为0的数据表, 第二类数据表指的是 未更新天数不 为0的数据表; 数据表之间的相似度的确定过程为: 将所述探查结果全量分区表中同一表名且同一表 注释下的字段名依次连接形成字段名连接串; 基于字符串相似度计算公式计算两个表的字 段名连接串之间的相似度。 4.根据权利要求1所述的用于全量数据比对人员 信息的方法, 其特征在于, 步骤3)是通 过SQL语法, 将读取的数据记录中数据表名、 字段名拼接, 将拼接后的结果输入所述人员特 征数据校验函数中, 得到判断数据 表字段取值有 无通过的校验的SQL语句, 以此确定人员特 征数据所在的数据表中的字段。 5.根据权利要求4所述的用于全量数据比对人员 信息的方法, 其特征在于, 所述步骤3) 在利用所述人员特征数据校验函数前, 先根据数据表中字段名的字段数据类型进行筛选, 排除数据类型不符合特 征值数据类型的字段。 6.根据权利要求1所述的用于全量数据比对人员 信息的方法, 其特征在于, 步骤4)中是 通过SQL语法, 将获取定位字段所在的数据表名、 字段名、 分区类型进 行拼接, 将拼接后的结 果输入所述人员特征数据校验函数中, 得到一条结合表的分区类型对数据内容进 行校验的 SQL语句, 以此 得到人员特 征数据。 7.根据权利要求1所述的用于全量数据比对人员 信息的方法, 其特征在于, 步骤3)和步 骤4)中均通过UN ION ALL将多个SQ L语句合并为 一个执行语句。 8.根据权利要求1所述的用于全量数据比对人员信 息的方法, 其特征在于, 所述人员特权 利 要 求 书 1/2 页 2 CN 114595225 A 2征数据为身份证号码, 与其对应的人员特征数据校验函数与身份证号码末位的校验码生成 规则有关。 9.根据权利要求1所述的用于全量数据比对人员信 息的方法, 其特征在于, 所述数据表 记录条数与该数据表的分区类型有关, 若为全量分区类型, 则根据最新全量分区统计记录 条数; 若为增量分区类型, 则根据全部分区统计记录数。 10.一种用于全量数据比对人员信息的装置, 其特征在于, 采用了如权利要求1 ‑9任一 项所述的用于全量数据比对人员信息的方法。权 利 要 求 书 2/2 页 3 CN 114595225 A 3

.PDF文档 专利 一种用于全量数据比对人员信息的方法及装置

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于全量数据比对人员信息的方法及装置 第 1 页 专利 一种用于全量数据比对人员信息的方法及装置 第 2 页 专利 一种用于全量数据比对人员信息的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:15:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。