说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211462125.7 (22)申请日 2022.11.17 (71)申请人 北京滴普科技有限公司 地址 100081 北京市海淀区学院南路62号 院1号楼10层10 01-1002 (72)发明人 简勇华 (74)专利代理 机构 北京国谦专利代理事务所 (普通合伙) 11752 专利代理师 肖应国 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/28(2019.01) G06F 16/11(2019.01) (54)发明名称 一种用于数据库实时变化数据抓取的方法 及系统 (57)摘要 本发明提供一种用于数据库实时变化数据 抓取的方法及系统, 其中方法包括: 基于当前监 控时间间隔内的快照与历史监控时间间隔内的 快照, 确定数据变更数据集; 提取数据变更集中 的删除文件; 基于删除文件, 生成实时变化数据。 本发明的用于数据库实时变化数据抓取的方法, 实现了企业级数据湖秒级变化数据抓取特性, 真 正做到了实时和准实时, 便于对风险的监控以及 数据的溯源。 权利要求书2页 说明书7页 附图3页 CN 115510144 A 2022.12.23 CN 115510144 A 1.一种用于数据库实时变化数据抓取的方法, 其特 征在于, 包括: 基于当前监控时间间隔内的快照与历史监控时间间隔内的快照, 确定数据变更数据 集; 提取数据变更集中的删除文件; 基于所述删除文件, 生成实时变化数据。 2.如权利要求1所述的用于数据库实时变化数据抓取的方法, 其特征在于, 所述快照通 过如下步骤构建: 进行建表操作后, 生成初始快照; 在每进行一批次数据写入并提交后生成一张快照; 其中, 所述快照包括: 若干个分区级元 数据记录; 所述分区级元数据记录对应一个分区级元数据文件, 所述分区级元数据文件由所述分 区级元数据文件内的文件级元 数据记录的统计结果 生成; 一个所述文件级元 数据记录对应一个底层的数据文件。 3.如权利要求1所述的用于数据库实时变化数据抓取的方法, 其特征在于, 所述基于当 前监控时间 间隔内的快照与历史监控时间 间隔内的快照, 确定数据变更 数据集, 包括: 将当前监控时间 间隔内的快照与上一个快照进行比对, 确定 两者的差集; 基于所述差集, 生成所述数据变更 数据集; 或, 获取当前监控时间 间隔内的所述快照的第一标识; 获取当前监控时间 间隔内的所述快照的元 数据文件或数据文件的第二标识; 提取所述第 二标识与 所述第一标识相同的所述元数据文件或数据文件, 生成所述数据 变更数据集。 4.如权利要求3所述的用于数据库实时变化数据抓取的方法, 其特征在于, 在快照提交 时, 为其配置唯一的所述第一标识; 在生成元数据文件或数据文件时, 当快照对应的提交的源文件在原位置已存在时, 提 取源文件 对应关联的第三标识, 作为所述元 数据文件或数据文件的第二标识; 当快照对应的提交 的源文件在原位置未存在时, 将所述第 一标识配置与所述源文件关 联, 并将所述第一标识作为所述元 数据文件或数据文件的第二标识。 5.如权利要求3所述的用于数据库实时变化数据抓取的方法, 其特征在于, 所述基于所 述删除文件, 生成实时变化数据, 包括: 确定所述数据变更 数据集中是否存在所述删除文件 对应的数据文件; 当存在时, 将所述删除文件与所述数据文件进行合并, 获取实时变化数据; 当不存在时, 基于所述删除文件中的记录提取源数据文件 并提取所述源数据文件中的 数据构造实时变化数据。 6.如权利要求1所述的用于数据库实时变化数据抓取的方法, 其特 征在于, 还 包括: 基于所述实时变化数据, 确定变化前后的源数据; 基于预设的量 化模板对变化前后的源数据进行量 化, 获取第一 量化值和第二 量化值; 基于所述第一 量化值和所述第二 量化值, 构建风险评估向量; 获取预设的风险评估库;权 利 要 求 书 1/2 页 2 CN 115510144 A 2基于预设的风险评估库和所述 风险评估向量, 确定风险值; 确定变化前后的源数据位于数据库内的位置, 并确定所述位置对应的预设的安全系 数; 基于预设的安全系数与风险系数对照表和所述 安全系数, 确定风险系数; 基于所述 风险系数和所述 风险值, 确定威胁值; 当所述威胁值大于预设的威胁阈值时, 输出报警信息 。 7.一种用于数据库实时变化数据抓取的系统, 其特 征在于, 包括: 确定模块, 用于基于当前监控时间间隔内的快照与历史监控时间间隔内的快照, 确定 数据变更 数据集; 提取模块, 用于提取 数据变更集中的删除文件; 生成模块, 用于基于所述删除文件, 生成实时变化数据。 8.如权利要求7所述的用于数据库实时变化数据抓取的系统, 其特征在于, 所述快照通 过如下步骤构建: 进行建表操作后, 生成初始快照; 在每进行一批次数据写入并提交后生成一张快照; 其中, 所述快照包括: 若干个分区级元 数据记录; 所述分区级元数据记录对应一个分区级元数据文件, 所述分区级元数据文件由所述分 区级元数据文件内的文件级元 数据记录的统计结果 生成; 一个所述文件级元 数据记录对应一个底层的数据文件。 9.如权利要求7所述的用于数据库实时变化数据抓取的系统, 其特征在于, 所述确定模 块基于当前监控时间间隔内的快照与历史监控时间间隔内的快照, 确定数据变更数据集, 执行如下操作: 将当前监控时间 间隔内的快照与上一个快照进行比对, 确定 两者的差集; 基于所述差集, 生成所述数据变更 数据集; 或, 获取当前监控时间 间隔内的所述快照的第一标识; 获取当前监控时间 间隔内的所述快照的元 数据文件或数据文件的第二标识; 提取所述第 二标识与 所述第一标识相同的所述元数据文件或数据文件, 生成所述数据 变更数据集。 10.如权利要求9所述的用于数据库实时变化数据抓取的系统, 其特征在于, 在快照提 交时, 为其配置唯一的所述第一标识; 在生成元数据文件或数据文件时, 当快照对应的提交的源文件在原位置已存在时, 提 取源文件 对应关联的第三标识, 作为所述元 数据文件或数据文件的第二标识; 当快照对应的提交 的源文件在原位置未存在时, 将所述第 一标识配置与所述源文件关 联, 并将所述第一标识作为所述元 数据文件或数据文件的第二标识。权 利 要 求 书 2/2 页 3 CN 115510144 A 3
专利 一种用于数据库实时变化数据抓取的方法及系统
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 17:00:57
上传分享
举报
下载
原文档
(589.3 KB)
分享
友情链接
ISO 16237 2015 Mechanical joining — Destructive testing of joints — Specimen dimensions and test procedure for cross-tension testing of single joints.pdf
ISO 105-F07 2001 Textiles — Tests for colour fastness — Part F07 Specification for secondary acetate adjacent fabric.pdf
ISO 6742-1 2023 Cycles — Lighting and retro-reflective devices — Part 1 Lighting and li.pdf
ISO 18219-1 2021 Leather Determination of chlorinated hydrocarbons in leather Part 1 Chromatographic method for short-chain chlorinated paraffins (SCCPs).pdf
ISO CIE 11664-2 2022 Colorimetry — Part 2 CIE standard illuminants.pdf
ISO 11064-4 2013 Ergonomic design of control centres — Part 4 Layout and dimensions of workstations.pdf
ISO-IEC TR 15942 2000 Information technology -- Programming languages -- Guide for the use of the Ada programming language in high integrity systems.pdf
ISO 20121-2024 中文版.pdf
ISO 2426-1 2020 Plywood — Classification by surface appearance — Part 1 General.pdf
ISO TR 19867-3 2018 Clean cookstoves and clean cooking solutions — Harmonized laboratory test protocols — Part 3 Voluntary performance targets for cookstoves based on laboratory testing.pdf
GB-Z 25425-2010 风力发电机组 公称视在声功率级和音值.pdf
GB-T 28131-2011 溴氰菊酯原药.pdf
GB-T 3290-1982 信息交换用磁带盘的尺寸和性能.pdf
GB-T 30415-2013 钟表 功能和非功能宝石.pdf
GB-T 311.6-2005 高电压测量标准空气间隙.pdf
GB-T 30912-2014 汽车液压盘式制动缸用橡胶密封件.pdf
GB-T 44842-2024 微机电系统(MEMS)技术 薄膜材料的弯曲试验方法.pdf
GB-T 3920-2008 纺织品 色牢度试验 耐摩擦色牢度.pdf
GB-T 28534-2012 高压开关设备和控制设备中六氟化硫(SF6)气体的释放对环境和健康的影响.pdf
GB-T 17707-1999 报价报文.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(589.3 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。