说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211112500.5 (22)申请日 2022.09.14 (65)同一申请的已公布的文献号 申请公布号 CN 115185981 A (43)申请公布日 2022.10.14 (73)专利权人 吉奥时空信息技 术股份有限公司 地址 430223 湖北省武汉市东湖开发区庙 山小区江夏大道武大 科技园 (72)发明人 吴杰 程方 王磊 尹心亮 汪维  (74)专利代理 机构 武汉泰山北斗专利代理事务 所(特殊普通 合伙) 42250 专利代理师 董佳佳 (51)Int.Cl. G06F 16/242(2019.01) G06F 16/215(2019.01) G06F 9/50(2006.01)(56)对比文件 CN 106326004 A,2017.01.1 1 CN 105975398 A,2016.09.28 CN 111708771 A,2020.09.25 CN 112506651 A,2021.0 3.16 CN 114048025 A,202 2.02.15 CN 108241615 A,2018.07.0 3 郑天宇.可控动态内存分配 器的研究与开 发. 《中国优秀硕士学位 论文全文数据库信息科 技辑》 .2011, 李一平, 宫纪明.基 于平均负载和空 闲内存 税率的虚拟机内存 优化. 《陕西理工大 学学报(自 然科学版)》 .2013, 罗青松等.内存数据库的一种数据组织方 式. 《计算机 应用》 .20 08, 审查员 周勇攀 (54)发明名称 一种顾及超大表的数据查重方法及装置 (57)摘要 本发明适用于数据治理技术领域, 提供一种 顾及超大表的数据查重方法及装置, 所述方法包 括: 初始化加载数据质检参数; 通过空闲指数 PNum判断计算机空闲内存是否能承载当前数据 查重任务; 如果PNum<1则给出异常提示; 如果 PNum=1, 则进入内存模式质检; 如果PNum>1, 则 进入持久化模式质检; 输出查重质检报告。 本发 明根据当前内存的状态, 判断是否能承载当前数 据查重任务, 采用不同质检方案, 无需采用分布 式计算框架, 成本低, 单台普通计算机即可完成 超大表的数据查重, 执 行效率高。 权利要求书3页 说明书6页 附图3页 CN 115185981 B 2022.11.25 CN 115185981 B 1.一种顾及超大表的数据查重方法, 其特 征在于, 所述方法包括下述 步骤: 步骤S1、 初始化加载 数据质检参数; 步骤S2、 通过空 闲指数PNum判断计算机空 闲内存是否能承载当前 数据查重任务; 步骤S3、 如果PNum<1, 则给 出异常提 示; 步骤S4、 如果PNum=1, 则进入内存 模式质检; 步骤S5、 如果PNum>1, 则进入持久化模式质检; 步骤S6、 输出查重质检报告; 所述步骤S2具体过程如下: 计算内存空闲指数 , 其中, 符号 ⌈⌉表 示上取整, MemSize  (PK)为主键占用的内存大小, FreeM em为系统空闲 内存, TableRows为数 据表的总行数, TotalMem为系统总内存, Ratio为预留比例, TotalMem*Ratio为系统预留的 内存空间。 2.如权利要求1所述顾及超大表的数据查重方法, 其特征在于, 所述内存模式质检过程 如下: 从当前数据查重任务中读取输入参数, 生成SQ L查询语句; 执行SQL查询语句遍历数据表, 针对每行数据, 将主键以外的其他字段组合, 合并成MD5 编码, 以MD5编码为键、 主键ID为 值, 将键值对保存到内存集 合中; 对内存集 合中的键进行 数量统计, 得到统计结果大于1的键的查重集 合; 根据查重集合的键信息, 在内存集合中查找对应的主键ID, 进而得到数据表中相应的 重复数据。 3.如权利要求1所述顾及超大表的数据查重方法, 其特征在于, 所述持久化模式质检具 体过程如下: 从当前数据查重任务中读取输入参数, 生成SQ L查询语句; 执行SQL查询语句遍历数据表, 针对每行数据, 将主键以外的其他字段组合, 合并成MD5 编码; 计算分区编号Par titionNum: 其中Code为MD5编码对应的字符串, Len为Code长度, Code.charAt(i)为字符串序号为i 的字符对应的ASCI I码, Prime为大于PNum的最小质数, mod取模运 算符; 以MD5编码为键、 主键ID为值, 以键值对方式按照分区编号, 将键值对保存到各个对应 的持久化分区中, 其中持久化分区与分区编号 一一对应; 针对每个持久化分区, 将分区中的键值对加载到内存, 并对键进行数量统计, 得到统计 结果大于1的键的分区集 合; 根据分区集合中的键信息, 在持久化分区中查找对应的主键ID, 将所有持久化分区查 找的主键ID合并, 进 而得到数据表中相应的重复数据。权 利 要 求 书 1/3 页 2 CN 115185981 B 24.如权利要求3所述顾及超大表的数据查重方法, 其特征在于, 持久化分区中, 将重复 的键进行合并。 5.一种顾及超大表的数据查重装置, 其特 征在于, 所述装置包括: 参数加载 单元, 用于初始化加载 数据质检参数; 承载判断单元, 用于通过空闲指数PNum判断计算机空闲内存是否能承载当前数据查重 任务; 异常提示单元, 用于PNum<1时给 出异常提 示; 内存模式单元, 用于PNum=1时进入内存 模式质检; 持久化模式单 元, 用于PNum>1时进入持久化模式质检; 报告输出 单元, 用于输出查重质检报告; 所述承载判断单 元包括: 空闲计算模块, 用于计算内存空 闲指数 , 其中, 符号 ⌈⌉表示上取整, MemSiz e (PK) 为主键占用的内存大小, FreeMem为系统空闲内存, TableRows为数据表的总行数, T otalMem 为系统总内存, Rati o为预留比例, TotalMem*Rati o为系统预留的内存空间。 6.如权利要求5所述顾及超大表的数据查重装置, 其特征在于, 所述内存模式单元具体 包括: 语句生成模块, 用于从当前 数据查重任务中读取输入参数, 生成SQ L查询语句; 数据遍历模块, 用于执行SQL查询语句遍历数据表, 针对每行数据, 将主键以外的其他 字段组合, 合并成MD5编码, 以MD5编码为键、 主键ID为 值, 将键值对保存到内存集 合中; 结果统计模块, 用于对内存集合中的键进行数量统计, 得到统计结果大于1的键的查重 集合; 数据查找模块, 用于根据查重集合的键信息, 在内存集合中查找对应的主键ID, 进而得 到数据表中相应的重复数据。 7.如权利要求5所述顾及超大表的数据查重装置, 其特征在于, 所述持久化模式单元具 体包括: 语句生成模块, 用于从当前 数据查重任务中读取输入参数, 生成SQ L查询语句; 数据遍历模块, 用于执行SQL查询语句遍历数据表, 针对每行数据, 将主键以外的其他 字段组合, 合并成MD5编码; 以及用于以MD5编码为键、 主键ID为值, 以键值对方式按照分区 编号, 将键值对保存到各个对应的持久化分区中, 其中持久化分区与分区编号 一一对应; 分区计算模块, 用于计算分区编号Par titionNum: 其中Code为MD5编码对应的字符串, Len为Code长度, Code.charAt(i)为字符串序号为i 的字符对应的ASCI I码, Prime为大于PNum的最小质数, mod取模运 算符; 结果统计模块, 用于针对每个持久化分区, 将分区中的键值对加载到内存, 并对键进行权 利 要 求 书 2/3 页 3 CN 115185981 B 3

.PDF文档 专利 一种顾及超大表的数据查重方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种顾及超大表的数据查重方法及装置 第 1 页 专利 一种顾及超大表的数据查重方法及装置 第 2 页 专利 一种顾及超大表的数据查重方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:11:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。