说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210169028.2 (22)申请日 2022.02.23 (71)申请人 南方电网数字电网研究院有限公司 地址 510700 广东省广州市黄埔区中新广 州知识城 亿创街1号 406房之86 (72)发明人 唐良运 邹文景 甘莹 孙刚  (74)专利代理 机构 广州红稻专利代理事务所 (特殊普通 合伙) 44873 专利代理师 刘伟强 (51)Int.Cl. G06F 16/28(2019.01) G06F 16/215(2019.01) G06F 16/25(2019.01) G06F 16/23(2019.01) (54)发明名称 一种批量数据入库方法及系统 (57)摘要 本发明公开了一种批量数据入库方法及系 统, 该批量数据入库系统包括检测模块、 数据接 收模块、 数据处理模块、 数据引擎、 数据库和数据 清理模块, 该批量数据入库方法包括离线数据入 库和实时数据入库两种方式, 具体操作步骤如 下: S1: 离线数据入库: S11: 通过数据引擎对数据 进行提取; S12: 通过数据接收模块把数据进行汇 集并通过数据清理模块对数据进行清理; S13: 根 据数据处理模块对清理后的数据配置SQL脚本。 本申请通过在离线数据入库时对 数据进行清理, 清理后的数据用来配置SQL脚本, 通过检测模块 对服务器性能进行检测, 并对数据进行分批转化 上传处理, 大大减轻了服务器的压力, 提高了服 务器的使用寿 命, 提高了数据的上传效率。 权利要求书2页 说明书5页 附图2页 CN 114625807 A 2022.06.14 CN 114625807 A 1.一种批量数据入库 方法及系统, 其特征在于: 该批量数据入库系统包括检测模块、 数 据接收模块、 数据 处理模块、 数据引擎、 数据库和数据清理模块, 该批量数据入库方法包括 离线数据入库和实时数据入库两种方式, 具体操作步骤如下: S1: 离线数据入库: S11: 通过数据引擎对数据进行提取; S12: 通过 数据接收模块 把数据进行汇集并通过 数据清理模块对数据进行清理; S13: 根据数据处理模块对清理后的数据配置SQL脚本, 并把脚本信息储存在数据处理 模块的内存中; S14: 通过检测模块对服 务器性能进行检测并设定适 合的上传数据大小; S15: 以S14中适合的上传数据大小为标准, 把所有数据按照标准进行批量转化, 归类分 批; S16: 把转化后的数据上传到数据库并通过S13中配置的SQ L脚本对数据进行拼接整合。 S2: 实时数据入库: S21: 通过检测模块对服 务器性能进行检测并设定适 合的上传数据大小; S22: 以设定的合 适的上传数据大小为标准, 并通过 数据引擎进行实时抽取 数据; S23: 通过数据接收模块接收数据并通过数据清 理模块对抽取的数据进行清理, 通过数 据处理模块对清理后的数据配置SQ L脚本, 把脚本储 存在数据处 理模块的内存中, S24: 对清理后的数据进行 上传, 并且备份在服 务器中作为数据样本; S25: 上传后的数据经 过S23中配置好的SQ L脚本进行拼接整合; S26: 继续提取符合标准大小的数据, 并以之前备份保存在服务器 中的数据样本作为主 数据, 对新 提取的数据进行 数据清理, 数据清理后同样上传并备份保存在服 务器中; S27: 重复上述S2 2——S26中的操作直至数据全部上传。 2.根据权利 要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述S12与S23中 通过数据清理模块清理后的数据需要转化为预设格式, 并通过预设格式对SQL脚本进行配 置, 所述预设格式为数据仓库中数据储存结构格式, 以目标数据的名称和时间信息确定所 述目标数据的主键或联合主键 。 3.根据权利要求1所述的一种批量数据入库方法及系统, 其特征在于: 针对已经入库的 数据建立索引与内部表格, 并把内部表格转 化为外部表格。 4.根据权利要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述S26中对新 提取的数据进行数据清理时, 作为主数据的数据样本不进行清理, 仅对新提取 的数据样本 进行数据清理, 新 提取的数据经 过清理后备份保存时并入之前的数据样本 。 5.根据权利要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述SQL脚本的 解析通过异步线程进行。 6.根据权利要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述S23中经过 数据清理后的数据大小 小于或等于标准数据的大小。 7.根据权利 要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述S12和S23中 的数据清理分为三个步骤, 第一步骤为偏差检验, 第二步为数据变换, 第三步骤为人为抽 查, 且前两个步骤迭代进行, 清理时首先对冲突的拼写规则和冲突的数据等人为误差进行 重新拼写, 并对数据中一些对分析结果造成较大影响的特殊数值进行排除, 接着对数据的权 利 要 求 书 1/2 页 2 CN 114625807 A 2逻辑一致性进 行检查, 排除逻辑错误, 最后通过人工对数据质量进 行抽查, 判定错误数据对 数据整体结果的影响, 了解数据质量。 8.根据权利 要求1所述的一种批量数据入库方法及系统, 其特征在于: 所述S14与S21中 的检测模块对服务器的检测包括硬盘储存空间、 内存、 CPU以及宽带, 服务器的硬盘储存是 数据库大小的限制因素, 存储还可以采用网络储存的形式, 服务器内存的大小会影响服务 器处理指 令的速度, 处理复杂与更多的指令时, 需求更高的内存, CPU是影响SQL脚本解析的 主要影响因素, CPU和内核的数量会影响可执行多少个并发指令, 也影响执行指令的速度, 宽带对数据传输具有很大限制, 越高的宽带并发到服 务器的数据量越大。权 利 要 求 书 2/2 页 3 CN 114625807 A 3

.PDF文档 专利 一种批量数据入库方法及系统

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种批量数据入库方法及系统 第 1 页 专利 一种批量数据入库方法及系统 第 2 页 专利 一种批量数据入库方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:14:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。