(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210483527.9
(22)申请日 2022.05.05
(71)申请人 南京信息 工程大学
地址 210044 江苏省南京市浦口区宁六路
219号
(72)发明人 刘文杰 姚俊飞
(74)专利代理 机构 北京同辉知识产权代理事务
所(普通合伙) 11357
专利代理师 陈天林
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/28(2019.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于剪枝子图的知识图谱表示方法
(57)摘要
本发明提供一种基于剪枝子图的知识图谱
表示方法, 涉及知识图谱领域。 该发明基于剪枝
子图的知识图谱表示方法, 包括: 采用TransE模
型学习三元组(eh,r,et)的结构化信息, 得到实
体特征向量矩阵和关系特征向量矩阵; 通过计算
三元组中的头实体和关系的距离得到关系传播
系数, 得到一个ne×ne邻接权重矩阵; 根据邻接
权重矩阵, 对所有目标实体的k阶邻域实体由里
向外呈线性扩展进行有选择地采样, 形成剪枝子
图; 通过将剪枝子图和GAT进行结合来聚合邻居
剪枝子图特征信息; 解决了以下问题: GAT的注意
力机制仅基于一阶邻域的实体的特征信息, 没有
考虑高阶邻域实体特征信息。 当GAT使用更高阶
的邻域(间接邻居实体)来进行训练时, 会出现过
度平滑, 造成知识图谱表示 性能下降。
权利要求书3页 说明书8页 附图2页
CN 114780750 A
2022.07.22
CN 114780750 A
1.一种基于 剪枝子图的知识图谱表示方法, 其特 征在于, 包括以下步骤:
步骤一: 采用TransE模型学习三元组(eh,r,et)的结构化信息, 得到实体特征向量矩阵
和关系特 征向量矩阵
步骤二: 所述知识图谱为有向图, 信 息由头实体传播到尾实体, 通过计算三元组中的头
实体特征向量和关系特征向量之间的距离得到关系传播系数, 得到一个ne×ne邻接权重矩
阵;
步骤三: 所述知识图谱为有向图, 尾实体聚合头实体的信息, 所以对目标实体j(尾实
体)的k阶实体由里向外呈线性扩展进行选择性采样, 形成剪枝子图S(j); 设定采样系数为
β, 一阶采样β 个, 二阶采样2β 个, k阶采样kβ 个; 每采样一阶, 则通过邻接权重矩阵来计算关
系的采样概 率P(v|u), 通过关系来选择采样实体, 从而形成目标实体的剪枝子图S(j);
步骤四: 剪枝子 图中实体的重要性随着 阶数的增高而降低, 通过折扣系数对剪枝子 图
中每一阶实体进行评估, 形成剪枝子图特 征向量
步骤五: 将剪枝子图特征向量与GAT进行结合, 每个实体通过聚合邻居剪枝子图特征向
量得到新的特 征向量
步骤六: 将最初的实体特征向量
经过线性变换, 和
相加得到最终实体特征向量
同时对输入的关系特 征向量
进行线性变换 得到新的关系特 征矩阵向量
步骤七: 将最终的实体特征向量矩阵
以关系特征向量矩阵
进行翻译模型优化训练。
2.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于, 所述实
体特征向量矩阵E的维度为(ne,d), 其中ne表示实体的数量; 所述关系特征向量矩阵R的维度
为(nr,d), 其中nr表示关系的数量, d表示特 征向量的维度。
3.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤二具体 计算公式为:
其中,
表示头实体和尾实体之间关系的传播系数, 根据头实体和关系之间的欧式距
离
求得传播系数, 由此来 求得邻接 权重矩阵。
4.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤三中具体采样概 率和形成的子图S(j)为:
权 利 要 求 书 1/3 页
2
CN 114780750 A
2S(j)={{ej},{e1,1,e1,2,...e1, β},...{ek,1,ek,2,...ek,kβ}}
其中, 定义实体v是上一阶采样实体u的邻 居, 实体u的邻 居实体集合为N(u), cv, u代表关
系(v,u)的权重, N(u)/S(j)表示除去已经在剪枝子图中的实体,{ek,1,ek,2,...ek,kβ}表示剪
枝子图中采样的每一阶实体集 合; {ej}代表实体j。
5.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤四具体公式为:
其中, ρ 是一个0到1之间的折扣系数, 阶数越高, 实体对于剪枝子图的重要性就越低,
表示实体j的特征向量,
表示采样的第k阶实体的特征向量相加, W1是线
性变换矩阵, 对打完折扣的每阶实体进行一次特 征提取,
是剪枝子图特 征向量。
6.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤五具体公式为:
其中,
表示实体i的初始特征向量,
表示实体i的邻 居剪枝子图特征向量, Ni表示实
体i的邻居剪枝子图集合, di,S(j)和αi,S(j)都是表示实体i和剪枝子图S(j)之间的注意力系
数, 只不过αi,S(j)是di,S(j)在的基础之上进行归一化的, W2为与特征向量相乘的矩阵, a为学
习权重向量, σ 为非线性激活函数,
为最后聚合邻居剪枝子图的特 征向量。
7.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤六具体公式为:
其中, W3, W4都是线性变换矩阵,
表示最终的实体特征向量,
表示经过线性变换之
后的关系特 征向量。
8.根据权利要求1所述的一种基于剪枝子图的知识图谱表示方法, 其特征在于: 所述步
骤七中具体运 算损失函数公式为:权 利 要 求 书 2/3 页
3
CN 114780750 A
3
专利 一种基于剪枝子图的知识图谱表示方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:52:53上传分享