(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210312004.8
(22)申请日 2022.03.28
(65)同一申请的已公布的文献号
申请公布号 CN 114416913 A
(43)申请公布日 2022.04.29
(73)专利权人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 万小培
(74)专利代理 机构 北京亿腾知识产权代理事务
所(普通合伙) 11309
专利代理师 陈霁 周良玉
(51)Int.Cl.
G06F 16/31(2019.01)
G06F 16/36(2019.01)(56)对比文件
CN 111324643 A,2020.0 6.23
CN 113393933 A,2021.09.14
US 201413 6520 A1,2014.0 5.15
US 2019294733 A1,2019.09.26
US 2016357844 A1,2016.12.08
李彭伟.海量知识图谱分布式管理与查询技
术. 《指挥信息系统与技 术》 .2021,第 12 卷(第
2 期),第75 -80、 93页.
Weifeng Zhang 等.SARC: Spl it-and-
Recombine Networks for Kn owledge-Based
Recommendation. 《IEEE》 .2020,第6 52-659页.
彭成.大规模知识图谱的分布式存 储与检索
技术研究. 《中国优秀博硕士学位 论文全文数据
库(硕士)信息科技 辑》 .2020,I137-80.
审查员 王璐
(54)发明名称
一种对知识图谱进行数据分片的方法及装
置
(57)摘要
本说明书实施例提供了一种对知识图谱进
行数据分片的方法及装置。 该方法用于将知 识图
谱拆分成分别归属于多个设备的多个 分片数据。
首先, 对知识图谱中的多个边进行初始拆分, 使
得各个设备分别得到部分边。 任一个第一设备基
于第一扩散速度从其拥有的第一部分边的端节
点中选择扩散节点, 获取知识图谱中以扩散节点
为一侧端节点的边, 作为待分片边; 将待分片边
中的目标边加入第一设备的第一分片数据中。 接
着, 第一设备 获取其他设备的分片数据中的已分
片节点, 基于第一设备与其他设备的已分片节点
的对比, 对第一扩散速度进行调整, 基于调整后
的第一扩散速度继续选择扩散节 点, 循环执行获
取知识图谱中以扩散节点为一侧端节点的边的
步骤。
权利要求书4页 说明书20页 附图4页
CN 114416913 B
2022.07.05
CN 114416913 B
1.一种对知识图谱进行数据分片的方法, 用于将知识图谱拆分成多个分片数据, 多个
分片数据分别归属于多个设备, 所述知识图谱包括代表实体的多个节点, 以及体现节点与
节点之间关系的边; 所述方法通过 所述多个设备中任意的第一设备 执行, 包括:
获取所述知识图谱的第 一部分边, 所述第 一部分边是对所述知识图谱中的多个边进行
初始拆分后得到;
基于第一扩散 速度, 从所述第一部分边的端节点中选择扩散节点;
获取所述知识图谱中以所述扩散节点 为一侧端节点的边, 作为待分片边;
将所述待分片边中的目标边加入第一分片数据中; 其中, 所述第一分片数据归属于所
述第一设备, 所述第一分片数据中包 含已分片边;
获取其他设备的分片数据中已分片边包 含的端节点, 作为 其他设备的已分片节点;
基于所述第 一设备的已分片节点与 所述其他设备的已分片节点的对比, 对所述第 一扩
散速度进行调整;
基于调整后的第一扩散速度继续选择扩散节点, 返回执行所述获取所述知识图谱中以
所述扩散节点 为一侧端节点的边的步骤。
2.根据权利要求1所述的方法, 所述第一扩散速度的取值在(0,1]之间, 用于表示选择
的数量比例。
3.根据权利要求1所述的方法, 所述基于第 一扩散速度, 从所述第 一部分边的端节点中
选择扩散节点的步骤, 包括:
从所述第一部分边的端节点中选择第一数量个节点作为初始边界点;
按照初始边界点关联的边数量从少到多, 对多个初始边界点进行排序;
基于第一扩散 速度, 从排序后的多个初始边界点中选择扩散节点。
4.根据权利要求3所述的方法, 采用以下 方法确定所述初始边界点关联的边数量:
获取其他设备中以所述初始边界点作为一侧端节点的边; 其中, 所述其他设备包括所
述多个设备中除所述第一设备之外的设备, 获取的边是所述其他设备从其自身拥有的部分
边中确定;
针对任意一个初始边界点, 基于所述第 一部分边中以该初始边界点作为一侧端节点的
边数量, 以及所述其他设备中以该初始边界点作为一侧端节点的边数量之和, 确定该初始
边界点关联的边数量。
5.根据权利要求1所述的方法, 所述获取所述知识图谱中以所述扩散节点为一侧端节
点的边的步骤, 包括:
从其他设备拥有的部分边中获取以所述扩散节点 为一侧端节点的边;
将获取的边以及所述第 一部分边中以所述扩散节点为一侧端节点的边, 确定为所述知
识图谱中以所述扩散节点 为一侧端节点的边。
6.根据权利要求1所述的方法, 采用以下 方式从所述待分片边中确定目标边:
基于所述第一扩散 速度, 从所述待分片边中选择目标边。
7.根据权利要求1所述的方法, 还 包括:
接收其他设备发送的获取请求, 所述获取请求用于获取 所述第一设备的已分片节点;
将所述第一设备的已分片节点发送至所述其他设备, 以使所述其他设备基于所述第 一
设备的已分片节点对所述 其他设备的扩散 速度进行调整。权 利 要 求 书 1/4 页
2
CN 114416913 B
28.根据权利要求1所述的方法, 所述基于调整后的第一扩散速度继续选择扩散节点的
步骤, 包括:
基于调整后的第一扩散 速度, 从所述目标边的另一侧端节点中选择扩散节点;
或者, 基于调整后的第一扩散速度, 从所述第一部分边中尚未选择的端节点中选择扩
散节点。
9.根据权利要求1所述的方法, 所述基于所述第一设备的已分片节点与所述其他设备
的已分片节点的对比, 对所述第一扩散 速度进行调整的步骤, 包括:
当基于所述第 一设备的已分片节点数量和所述其他设备的已分片节点数量的对比, 确
定所述第一设备的节 点分片进度大于第一预设进度时, 利用第一校正因子减小所述第一扩
散速度。
10.根据权利要求9所述的方法, 采用以下方式确定所述第一设备的节点分片进度 大于
第一预设进度:
当所述第一设备的已分片节点数量大于所述多个设备的平均已分片节点数量, 且所述
第一设备的节点均衡度大于预设节点均衡度时, 确定所述第一设备的节点分片进度大于所
述第一预设进度; 其中, 所述平均已分片节点数量和所述节点均衡度基于所述多个设备 的
已分片节点数量确定 。
11.根据权利要求9所述的方法, 还 包括:
当基于所述第 一设备的已分片节点数量和所述其他设备的已分片节点数量的对比, 确
定所述第一设备的节 点分片进度小于第二预设进度时, 利用所述第一校正因子增大所述第
一扩散速度。
12.根据权利要求11所述的方法, 采用以下方式确定所述第一设备的节点分片进度小
于第二预设进度:
当所述第一设备的已分片节点数量不大于平均已分片节点数量, 且所述多个设备中的
最大节点均衡度大于预设节点均衡度时, 确定所述第一设备的节点分片进度小于所述第二
预设进度。
13.根据权利要求9所述的方法, 所述利用第一校正因子减小所述第一扩散速度的步
骤, 包括:
按照第一校正因子的对数规 律减小所述第一扩散 速度。
14.根据权利要求9所述的方法, 所述第 一校正因子基于所述第 一设备的已分片节点数
量和所述多个设备的平均已分片节点数量的对比确定 。
15.根据权利要求1所述的方法, 在对所述第一扩散 速度进行调整之前, 还 包括:
获取其他设备的分片数据中的已分片边;
所述对所述第一扩散 速度进行调整的步骤, 包括:
基于所述第 一设备的已分片节点和所述其他设备的已分片节点的对比, 以及所述第 一
设备的已分片边和所述 其他设备的已分片边的对比, 对所述第一扩散 速度进行调整。
16.根据权利要求15所述的方法, 所述对所述第一扩散 速度进行调整的步骤, 包括:
基于所述第 一设备的已分片节点和所述其他设备的已分片节点的对比, 对所述第 一扩
散速度进行初步调整;
基于所述第 一设备的已分片边和所述其他设备的已分片边的对比, 继续对调整后的第权 利 要 求 书 2/4 页
3
CN 114416913 B
3
专利 一种对知识图谱进行数据分片的方法及装置
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:53:48上传分享