说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
文件分类
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211045040.9 (22)申请日 2022.08.30 (71)申请人 浙江工业大 学 地址 310014 浙江省杭州市拱 墅区潮王路 18号 (72)发明人 杨良怀 陈峥 梁荣华 孙国道 (74)专利代理 机构 杭州天正专利事务所有限公 司 33201 专利代理师 舒良 (51)Int.Cl. G06F 16/21(2019.01) G06F 16/242(2019.01) G06F 16/25(2019.01) G06F 16/28(2019.01) (54)发明名称 一种数据湖元 数据模型的建模方法 (57)摘要 一种数据湖元数据模型建模方法, 包括: 提 取数据实体的信息及其数据实体内元数据; 判断 数据实体的数据实体类型与模型中现有的恒星 表是否相符; 对 数据湖进行提取获得数据实体内 元数据和全局元数据; 将获得的数据实体内元数 据存储入对应数据实体所存储恒星表链接的行 星表中; 判断全局元数据所对应的彗星表是否创 建; 使用关系挖掘算法挖掘不同数据实体间可能 存在的关系, 根据不同数据实体的数据实体内元 数据的内容进行挖掘; 若通过算法确定某些数据 实体间存在联系, 则判断是否存在对应的星链表 链接这些数据实体存储的恒 星表, 循环执行后两 步, 遍历完 所有的数据实体, 结束模型的构建。 本 发明了解决元数据耦合的复杂性问题以及异构 数据的支持问题。 权利要求书3页 说明书7页 附图5页 CN 115422155 A 2022.12.02 CN 115422155 A 1.一种数据湖元数据模型建模方法; , 其特征在于: 在数据湖元数据分类体系基础之 上, 采用恒星实体、 行星实体、 星链实体、 彗星实体四类元数据模型 组件, 实现对 数据湖多源 异构数据的元数据管理, 其特征在于将数据实体、 数据实体本体的元数据属性(即数据实体 内元数据)、 数据实体间的联系(即数据实体间元数据)以及 全局元数据分开存储, 以不同数 据实体类型的数据实体为中心进 行集成建模, 以此形成一个通用可扩展的数据湖元数据模 型; 所述的数据实体为数据湖中不同粒度级别的数据; 所述数据实体类型指代数据实体的 文件类型; 依据元数据的作用范围将数据湖中的元 数据进行分类, 包括: 数据实体内元数据, 指与数据实体本身特征相关联的元数据, 包含属性元数据、 结构元 数据、 摘要 元数据、 数据更新版本元数据、 数据演化版本元数据、 语义元数据、 区域元数据这 七种类型, 其中区域元 数据是用来标识数据实体所位于数据湖的区域 位置元数据; 数据实体间元数据, 指的是描述数据实体之间关联关系的元数据, 包含实体分组、 相似 链接、 血缘关系这三种类型; 其中实体分组是记录带有同一特征标签的数据实体之间集合 关系的元数据, 相似链接是记录两个数据实体之间相似程度强弱的元数据, 血缘关系 是记 录数据沿袭的元 数据; 全局元数据, 指的是作用于整个元数据模型或整个数据湖的元数据, 包含语义资源、 知 识共享元 数据和用户访问元 数据这三种类型; 采用四类元 数据模型组件, 包括: 3.1恒星实体, 可用于表示不同数据实体类型的数据实体或数据实体集; 一种数据实体 类型对应一个恒星实体, 使用恒星表进行数据存储; 恒星表内的属性有: 数据实体ID, 即恒 星表的主键, 用于记录数据实体在数据湖中的唯一标识信息; 数据来源, 即该数据实体的来 源, 可以是数据来源的描述, 也可以是源系统访问链接; 入湖时间, 记录数据实体加载进入 数据湖的时间; 数据实体名称, 即数据实体在数据湖中的名称; 存储位置, 记录数据实体在 数据湖中的存 储路径; 3.2行星实体, 用于表示数据实体的数据实体内元数据, 使用行星表进行数据存储; 行 星表与恒星表通过外键相链接, 一张恒星表拥有七张行星表以分别记录七种不同类型的数 据实体内元数据, 分别是属性行星表、 结构行星表、 摘要 行星表、 数据更新版本行星表、 数据 演化版本行星表、 语义行星表、 区域行星表; 行星表内的重要属性有: 数据实体ID, 即恒 星表 的主键; 行星ID; 数据来源, 记录数据实体内元数据的来源; 加载时间, 记录数据实体内元数 据加载进入行星表的时间; 其中数据实体ID以及行星ID两者形成行星表主键; 属性行星表 的可选属性有: 更新时间、 源数据实体ID、 源数据 实体名称、 数据大小、 数据拥有者、 数据记 录数、 数据实体类型; 结构行星表的可选属性有: 更新时间、 模式名称、 属性名、 属性类型、 非 空判断、 字符集、 主外键; 摘要行星表的可选属性有: 更新时间、 模式名 称、 属性名、 属性描 述、 数据分布、 最大值、 最小值、 平均值; 数据更新版本行星表的可选属性有: 数据版本、 更新 操作时间、 操作名称、 执行用户ID、 父数据版本; 数据演化版本行星表的可选属性有: 数据版 本、 演化操作时间、 操作名称、 执行用户ID、 父数据版本; 语义行星表的可选属性有: 更新时 间、 语义标注内容、 语义资源ID、 标注时间、 执行用户ID; 区域行星表的属性有: 更新时间、 数 据湖区域; 3.3星链实体, 用于表示数据实体的数据实体间元数据, 使用星链表以及星链子表进行权 利 要 求 书 1/3 页 2 CN 115422155 A 2数据存储; 星链表会与恒星表相链接以记录数据实体间的关系, 数据实体内元数据详细内 容会存储于该星链表的对应星链子表中, 一张星链表拥有三张星链子表以分别记录三种不 同类型的数据实体间元数据, 分别是实体 分组星链子表、 相似链接星链子表、 血缘关系星链 子表; 星链表内的重要属性有: 星链 ID, 即星链表的主键; 数据实体ID, 即与该星链表链接的 恒星表的主键, 是表的外键, 一个星链表可能会有两个或多个数据实体ID; 数据来源, 记录 数据实体间元数据的来源; 加载时间, 记录数据实体内元数据加载的时间; 星链子表内的关 键属性有: 星链ID, 即星链表的主键; 星链子表ID; 其中星链ID以及星链子表ID两者形成星 链子表主键; 实体分组星链子表的可选属性有: 集合标签、 创建时间、 分组方法; 相似链接星 链子表的可选属性有: 相似度、 创建时间、 相似方法; 血缘关系星链子表的可选属性: 父实体 ID、 子实体ID、 操作、 创建时间; 3.4彗星实体, 用于表示全局元数据, 使用语义参考彗星表、 知识共享彗星表以及用户 访问彗星表进行数据存储, 彗星表可与恒星表、 星链表、 行星表通过外键相链接; 语义参考 彗星表的重要属性有: 语义参考彗星ID, 即语义参考彗星表的主键; 数据来源, 记录语义资 源的来源, 通常是一个URL; 加载时间, 记录语义资源加载的时间; 语义资源名称, 记录语义 资源的名称; 描述, 提供语义资源的详细描述; 知识共享彗星表内的重要属 性有: 知识共享 彗星ID, 即知识共享彗星表的主键; 数据实体/行星/星链 ID, 即与该知识共享彗星表链接的 恒星/行星/星链表的主键, 是表的外键, 一个知识共享彗星表可能会有一个或多个数据实 体/行星/星链ID; 数据来源, 记录知识共享元数据的来源; 加载时间, 记录知识共享元数据 加载的时间; 用户ID, 即发起知识共享的用户的ID; 共享创建时间, 记录知识共享创建的时 间; 评述, 记录用户对数据实体的相关认知评述; 知识共享彗星表的可选属性有: 探索操作、 探索工具、 探索结果; 用户访问彗星表内的重要属性有: 用户访问彗星ID, 即用户访问彗星 表的主键; 数据实体ID, 即与该用户访问彗星表链接的恒星表的主键, 是表的外键; 数据来 源, 记录用户访问元数据的来源; 加载时间, 记录用户访问元数据加载的时间; 访问ip, 记录 访问用户的ip地址; 访问时间, 记录用户访问数据实体的时间; 用户ID, 即访问用户的ID; 包括如下步骤: 1)给定一个数据湖的数据实体集, 首先对其中一个数据实体使用合适的元数据抽取方 法或框架, 提取 该数据实体的信息及其数据实体内元 数据; 2)判断数据实体的数据实体类型与模型中现有的恒星表是否相符; 若相符则将该数据 实体的信息和数据实体内元数据存储入对应数据实体类型的恒星表及行星表中; 若都不 符, 则创建一张对应数据实体类型 的恒星表以及七张对应的行星表, 再将相关数据存储入 对应的表中; 3)循环执 行步骤1)、 2)操作, 直至遍历完数据实体集中的所有数据实体; 4)对数据湖的系统日志、 操作记录、 语义资源等进行提取获得数据实体内元数据和全 局元数据; 5)将获得的数据实体内元 数据存储入对应数据实体所存 储恒星表 链接的行星表中; 6)判断全局元数据所对应的彗星表是否创建, 若创建, 则将全局元数据存储入对应的 彗星表之中; 若未创建, 则构建对应的彗星表, 再将这些全局元数据存储入对应的彗星表之 中; 7)使用聚类算法、 相似算法的关系挖掘算法挖掘不同数据实体间可能存在的关系, 根权 利 要 求 书 2/3 页 3 CN 115422155 A 3
专利 一种数据湖元数据模型的建模方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 17:00:39
上传分享
举报
下载
原文档
(845.2 KB)
分享
友情链接
ISO IEC 10165-5 1994 Information technology — Open Systems Interconnection — Structure of management information Generic management information.pdf
ISO IEC 24800-4 2010 Information technology — JPSearch — Part 4 File format for metadata embedded in image data (JPEG and JPEG 2000).pdf
ISO 458-2-1985Plastics. Determination of stiffness in torsion of flexible materials. Part 2_Applicat.pdf
ISO 7201-2-1991Fire extinguishing media. Halogenated hydrocarbons. Part 2_Code of practice for safe.pdf
ISO 21232 2018 Textiles — Determination of moisturizing effect of textile materials by measurement of microclimate between textiles and simulated human skin using sweating guarded hotplate.pdf
ISO-PAS 22101-5 2024 Polyethylene reinforced with short glass fibres (PE-sGF) piping systems for industrial applications Part 5 Fitness for purpose of the system.pdf
ISO 558 1980 Conditioning and testing — Standard atmospheres — Definitions.pdf
ISO 10106 2021 Cork stoppers — Determination of global migration.pdf
ISO 22910 2020 Corrosion of metals and alloys Measurement of the electrochemical critical localized corrosion temperature (E-CLCT) for Ti alloys fabricated via the additive manufacturing method.pdf
ISO 6929 2013 Steel products — Vocabulary.pdf
GB-T 783-2013 起重机械 基本型的最大起重量系列.pdf
GB-T 15636-2008 电离辐射厚度计.pdf
GB-T 14699-2023 饲料 采样.pdf
GB-T 25399-2010 农林拖拉机和机械 液压接头 制动回路.pdf
GB-T 17626.15-2011 电磁兼容 试验和测量技术 闪烁仪 功能和设计规范.pdf
GB-T 15695-2008 信息技术 开放系统互连 表示服务定义.pdf
GB-T 4440-2022 活扳手.pdf
GB-T 3099.3-2017 紧固件术语 表面处理.pdf
GB-T 5117-2012 非合金钢及细晶粒钢焊条.pdf
GB-T 10561-2005 钢中非金属夹杂物含量的测定--标准评级图显微检验法.pdf
1
/
3
16
评价文档
赞助1.5元 点击下载(845.2 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。