说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211247857.4 (22)申请日 2022.10.12 (71)申请人 中电云数智科技有限公司 地址 430058 湖北省武汉市蔡甸区经济技 术开发区人工智能科技园N栋研发楼3 层N3013号 (72)发明人 周松 周旺 曹雪峰 罗辑  (74)专利代理 机构 北京尚钺知识产权代理事务 所(普通合伙) 11723 专利代理师 王海荣 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/2455(2019.01) G06F 16/901(2019.01) (54)发明名称 一种多源异构数据源导入Janusgraph 图数 据库的方法和装置 (57)摘要 本发明涉及图数据库图存储技术领域, 提供 一种多源异构数据源导入Janusgraph图数据库 的方法和装置, 本发明的方法, 包括: 获取待 导入 数据的数据源类型, 通过匹配获取所述数据源的 Datax的读 插件; 根据待 导入数据的数据量, 计算 Datax的读插件的并行读通道数量, 将数据分批 次读入读通道内; 扩展Datax的写插件, 初始化写 通道并将初始化的写通道与 读通道匹配, 将读通 道中的数据持续获取至对应的写通道; 对写插件 的写通道中的数据进行数据去重校验, 将通过去 重校验的数据写入图数据库。 根据本发明示例性 实施例的多源异构数据源导入Janusgraph图数 据库的方法和装置, 可以适配多种异构数据源的 数据, 实现数据的快速导入。 权利要求书2页 说明书7页 附图3页 CN 115470284 A 2022.12.13 CN 115470284 A 1.一种多源异构数据源导入Janusgraph图数据库的方法, 其特征在于, 所述方法, 包 括: 步骤S1: 获取待导入数据的数据源类型, 通过匹配获取 所述数据源的Datax的读插 件; 步骤S2: 根据待导入数据的数据量, 计算Datax的读插件 的并行读通道数量, 将数据分 批次读入读通道内; 步骤S3: 扩展Datax 的写插件, 初始化写通道并将初始化的写通道与读通道匹配, 将读 通道中的数据持续获取至对应的写通道; 步骤S4: 对写插件的写通道中的数据进行数据去重校验, 将通过去重校验的数据写入 图数据库。 2.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S1, 包括: 步骤S11: 接收数据源的链接信息, 通过通用的数据库元数据对象获取当前数据的数据 源的元数据信息, 所述元 数据信息包括数据库名称和版本信息; 步骤S12: 根据获取的数据库名称和版本信息, 通过字符模糊匹配的方式, 搜索出相对 应的插件名称。 3.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S2, 包括: 步骤S21: 根据S11接收的数据源 的链接信息, 通过数据库通用查询语言获取待读入数 据的数据总量; 步骤S22: 设置每个批次待读入数据的上限, 根据每个批次待读入数据的上限与待读入 数据的数据总量 为计算并行通道数; 步骤S23: 将数据按步骤S2 2设置的上限分批次读入至并行通道内。 4.根据权利要求3所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S22中, 根据每个批次待读入数据的上限与待读入 数据的数据总量为计算并行通道 数, 按以下 方法计算: N=ROUNDDOWN((T+M‑1)/M,0) 式中, N为并行通道的数, T为待读入数据的数据总量, M为每 个批次待读入数据的上限。 5.根据权利要求3所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 当计算所 得的并行通道数小于1, 将并行通道数修 正为1。 6.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S3, 包括: 步骤S31: 根据Datax的插 件格式, 编写JanusgraphWriter插 件; 步骤S32: 通过编写的JanusgraphWriter插 件初始化与读通道数量相等的写通道; 步骤S33: 将写通道与读通道分别编号, 将编号后的写通道与读通道一 一对应; 步骤S34: 通过JanusgraphWriter插件监听读通道, 当读通道有数据时, 获取读通道的 数据至对应的写通道。 7.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S4, 包括: 验证写通道获取的数据的数据主键是否已在Redis缓存中存在, 当Redis 缓存中已经存在所述数据主键时, 丢弃所述数据, 读入下一条数据; 当Redis缓存中不存在权 利 要 求 书 1/2 页 2 CN 115470284 A 2所述数据主键时, 将所述数据写入图数据库。 8.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 步骤S4中, 当Redis缓存中不存在所述数据主键时, 将所述数据写入图数据库, 包括: 当 Redis缓存中的不存在所述数据主键时, 通过调用Janusgraph图数据库的接口将所述数据 的数据主键以及数据主键之间的关联信息存储至Janusgraph图数据库的Hbase, 将所述数 据的全量信息存 储至Janusgraph图数据库的Elasticsearc h。 9.根据权利要求1所述的多源异构数据源导入Janusgraph图数据库的方法, 其特征在 于, 所述方法, 还包括: 当数据写入Janusgr aph图数据库成功后, 将所述数据的数据主键缓 存至Redis缓存中用于后续的去重校验。 10.一种多源异构数据源导入Janusgraph图数据库的装置, 其特征在于, 所述装置, 包 括: 获取单元, 用于确定待导入的数据的数据源类型, 对外提供一个输入端口和一个输出 端口; 输入端口的输入信息为待导入的数据的数据源链接信息, 输出端口的输出信息为待 导入的数据的数据源的元 数据信息, 所述元 数据信息包 含数据源名称和版本等信息; 响应单元, 用于根据数据的数据源类型, 匹配获取所述数据源 的Datax的读取插件, 对 外提供一个输入端口和一个输出端口, 输入端口为数据源名称和版本, 输出端口输出信息 为读取插 件的信息; 计算单元, 用于根据待读入数据的数据量, 计算Datax的读插件 的并行读通道数量, 对 外提供一个输入端口和一个输出端口, 输入端口的输入信息为待导入数据源的数据总量, 输出端口 的输出信息为并行通道数; 读取单元, 用于读取待导入数据源的读通道, 提供启用和禁用的多个输入端口和输出 端口; 写入单元, 用于对写入的数据做去重校验并写入Janusgraph图数据库的写通道, 提供 启用和禁用的多个输入端口和输出端口。权 利 要 求 书 2/2 页 3 CN 115470284 A 3

.PDF文档 专利 一种多源异构数据源导入Janusgraph图数据库的方法和装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多源异构数据源导入Janusgraph图数据库的方法和装置 第 1 页 专利 一种多源异构数据源导入Janusgraph图数据库的方法和装置 第 2 页 专利 一种多源异构数据源导入Janusgraph图数据库的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:00:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。