说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210258183.1 (22)申请日 2022.03.16 (71)申请人 国家石油天然气管网集团有限公司 华南分公司 地址 510620 广东省广州市天河区体 育西 路191号中石化大厦A塔 6层 (72)发明人 田中山 李锴 方垒 何少鹏  王现中 杨昌群 汪涛 刘德成  左志恒 兰文华 牛道东 李育特  王力  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 李秋梅 (51)Int.Cl. G06F 16/242(2019.01)G06F 16/215(2019.01) G06F 16/2455(2019.01) G06F 16/28(2019.01) G06F 16/36(2019.01) G06F 16/50(2019.01) (54)发明名称 一种数据治理方法、 装置及 介质 (57)摘要 本申请公开了一种数据治理方法、 装置及介 质, 主要涉及数据存储领域。 该方法采集工业数 据得到第一数据集; 清洗第一数据集, 得到第二 数据集; 判断第二数据集中的各主键字段与目标 数据库中的各主键字段是否匹配; 若是, 则根据 与第二数据集中的各主键字段对应的工业数据 构建第三数据集, 并存储第三数据集至目标数据 库; 根据元素级相似度和结构级相似度将本体与 目标数据库中的关系数据进行映射, 构建知 识图 谱。 可见, 该方法对第二数据集进行处理构建第 三数据集, 将第三数据集存储至目标数据库以更 新目标数据库, 并基于更新后的目标数据库中的 关系数据构建知识图谱, 利用知识图谱的关系网 络结构, 能够有效提升工业控制系统中的数据检 索速度。 权利要求书2页 说明书9页 附图2页 CN 114722065 A 2022.07.08 CN 114722065 A 1.一种数据治理方法, 其特 征在于, 包括: 采集工业数据得到第一数据集; 清洗所述第一数据集, 得到第二数据集; 判断所述第二数据集中的各主键 字段与目标 数据库中的各主键 字段是否匹配; 若是, 则根据与所述第二数据集中的各主键字段对应的所述工业数据构建第三数据 集, 并存储所述第三数据集至所述目标 数据库; 根据元素级相似度和结构级相似度将本体与所述目标数据库中的关系数据进行映射, 构建知识图谱; 其中, 所述元素级相似度和所述结构级相似度根据预先制 定的映射算法计 算得到。 2.根据权利要求1所述的数据治理方法, 其特征在于, 所述采集工业数据得到第 一数据 集包括: 通过SQL语句选取 各数据表的主键 字段; 其中, 所述数据表用于存 储所述工业数据; 根据所述主键 字段合并各 所述数据表, 得到所述第一数据集。 3.根据权利要求1所述的数据治理方法, 其特征在于, 所述清洗所述第一数据集, 得到 第二数据集包括: 根据所述第一数据集中的各flagfield值对所述第一数据集进行筛选, 得到第四数据 集; 其中, 各 所述flagfield值与所述第一数据集中的各记录对应; 对所述第四数据集进行 过滤, 得到所述第二数据集。 4.根据权利要求3所述的数据治理方法, 其特征在于, 所述根据 所述第一数据集中的各 flagfield值对所述第一数据集进行筛 选, 得到第四数据集包括: 对各所述flagfield值进行映射, 得到各目标值; 根据各所述目标值对所述第 一数据集中的各所述数据表进行筛选, 得到所述第四数据 集。 5.根据权利要求1所述的数据治理方法, 其特征在于, 所述根据 元素级相似度和结构级 相似度将本体与所述目标 数据库中的关系数据进行映射包括: 基于元素权重和结构权重根据所述元素级相似度和所述结构级相似度将所述本体与 所述关系数据进行映射。 6.根据权利要求1所述的数据治理方法, 其特征在于, 在所述构建知识图谱之后, 还包 括: 存储所述知识图谱至图数据库中。 7.一种数据治理装置, 其特 征在于, 包括: 采集模块, 用于采集工业数据得到第一数据集; 清洗模块, 用于清洗所述第一数据集, 得到第二数据集; 判断模块, 用于判断所述第 二数据集中的各主键字段与目标数据库中的各主键字段是 否匹配, 若是, 则触发构建模块; 所述构建模块, 用于根据与 所述第二数据集中的各主键字段对应的所述工业数据构建 第三数据集, 并存 储所述第三数据集至所述目标 数据库; 映射模块, 用于根据 元素级相似度和结构级相似度将本体与 所述目标数据库中的关系 数据进行映射, 构建知识图谱; 其中, 所述元素级相似度和所述结构级相似度根据预先制定权 利 要 求 书 1/2 页 2 CN 114722065 A 2的映射算法计算得到 。 8.一种数据治理装置, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至6任一项所述的数据治理方法 的步骤。 9.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至6任一项 所述的数据治理方法的 步骤。权 利 要 求 书 2/2 页 3 CN 114722065 A 3

.PDF文档 专利 一种数据治理方法、装置及介质

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据治理方法、装置及介质 第 1 页 专利 一种数据治理方法、装置及介质 第 2 页 专利 一种数据治理方法、装置及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:09上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。