(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210848061.8
(22)申请日 2022.07.19
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 薛一帆 段如冰 伍家松 孔佑勇
杨冠羽 杨淳沨 董志芳 舒华忠
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 杜静静
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/279(2020.01)
(54)发明名称
一种基于任意维度超复数嵌入的知识图谱
表示方法
(57)摘要
本发明公开了一种基于任意维度超复数嵌
入的知识图谱表示方法, 该方法主要特征在于将
原始的知识 图谱表示中的四元数嵌入的线性层
替换成了超复数嵌入的线性层。 具体包括以下步
骤: 1、 知识图谱数据预处理, 将传统知识图谱根
据模型需求预处理为结构化数据; 2、 利用深度学
习框架pytorch构造初步嵌入, 并构建新的线性
层, 即超复数嵌入线性层, 在图谱上学习实体和
关系的向量表示; 3、 用知识图谱校验集进行校
验, 调整到最佳网络参数; 4、 对知识图谱测试集
进行测试, 统计结果。 本发明通过改进一种已有
的四元数知识图谱嵌入方法QuatE, 引入超复数
策略, 降低了内存占用, 减少了参数, 同时保持了
优异地嵌入结果。
权利要求书3页 说明书8页 附图2页
CN 115168612 A
2022.10.11
CN 115168612 A
1.一种基于任意维度超复数嵌入的知识图谱表示方法, 其特征在于, 所述方法包括以
下步骤:
步骤1、 知识图谱数据预处 理, 将传统知识图谱根据模型需求预处 理为结构化数据;
步骤2、 利用深度学习框架pytorch构造初步嵌入, 并构 建新的线性层, 即超复数嵌入线
性层, 在图谱上 学习实体和关系的向量表示;
步骤3、 用知识图谱校验集进行 校验, 调整到最佳网络参数;
步骤4、 对知识图谱测试集进行测试, 统计测试结果, 利用MR(Mean Rank), MRR(Mean
Reciprocal Ranking), HIT10(链接预测中排名小于10的三元组的平均占比)评价指标对模
型进行评估。
2.根据权利要求1所述的基于任意维度超 复数嵌入的知识图谱表示方法, 其特征在于,
步骤1具体如下: 首先对不同领域的知识图谱进 行预处理为 五个文件, 处理后的文件包括知
识图谱三元组训练集, 知识图谱三元组验证集, 知识图谱三元组测试集, 实体ID集合, 关系
ID集合。
3.根据权利要求1所述的基于任意维度超 复数嵌入的知识图谱表示方法, 其特征在于,
步骤2具体如下: 首先将步骤1得到的知识图谱中的实体和关系嵌入为初始向量, 为接下来
的训练做准备, 构建超复数嵌入(Hypercomplex Embedding)线 性层, 即HyperE层, 由输入 得
到n元数的初始嵌入结果 I, n为设定元 数, I的维度被n整除
I=[I1,I2,I3,…,In]#(1)
I1表示n元数嵌入的实部部分, Ii,i∈[2,3, …,n]表示n元数嵌入的虚部部分, 把这n个
部分按照给定轴相接构成向量I, 作为HyperE层的输入, H yperE层采用与标准平移模 型相同
的形式: y=HyperE(x)=Ux+b, 关键思想是通过Kronecker积的和, 将U构造为参数矩阵, 其
中x为输入的待训练的嵌入向量, b为偏置, 得到y为实体或关系的嵌入向量;
计算正负样本的得分, 并通过 得分计算出每一批数据的损失来进行迭代优化。
4.根据权利要求2所述的一种基于超 复数嵌入的知识图谱嵌入方法, 其特征在于, 步骤
1中所述的预处理操作, 操作具体为: 将整个知识图谱三元组数据集按照8: 1: 1随机分割 为
训练集、 验证集和 测试集, 并输出整个知识图谱的实体对应ID和关系对应ID。
5.根据权利要求3所述的一种基于任意维度超复数嵌入的知识图谱表示方法, 其特征
在于, 步骤2中所述的构建超复数线性层HyperE操作, 操作具体为:
获得知识图谱中的实体嵌入和关系嵌入, 对于任意三元组有头实体h, 关系r和尾实体
t, 接下来由HyperE层将实体和关系嵌入转换为高阶嵌入, y=HyperE(x)=Ux+b, 通过
Kronecker积的方式根据不同的元数构造不同的学习矩阵U, Kronecker积将向量外积推广
到矩阵, 设定X∈Rm*n,Y∈Rp*q, Kronecker积为:
其中xij=(X)i,j, 设n为超复数嵌入HyperE的维度, k为用户定义的超参数, 表示实体和
关系嵌入的维度, 上文所述的U矩阵由n个Kro necker积得到:权 利 要 求 书 1/3 页
2
CN 115168612 A
2其中Ci∈Rn*n表示贡献矩阵,
表示分量权重矩阵, 同时k也表示线性变换的输
入输出大小, 贡献矩阵Ci选择为满秩矩阵, 其行列是线性独立的, 所有元素均属于{ ‑1,0,
1}, 设
对角线上为1和 ‑1交替出现, 将每个贡献矩阵Ci初始化为矩阵
与循环置换矩阵Pn的幂
之间的乘积, 循环置换矩阵Pn的作用为右 移
的列,
其中当j‑1=1且i=n,j=1时, (Pn)i,j=1, 此外所有 项全部为0;
当n=2时, 设定
当n=4时, 设定
6.根据权利要求1所述的一种基于任意维度超复数嵌入的知识图谱表示方法, 其特征
在于, 步骤2中所述的评分函数, 具体操作为:
设y1为头实体h和关系r相加得到:
y1=h+r#(6)
且y2为尾实体t:
y2=t#(7)
将y1,y2通过HyperE层得到:
y′1=HyperE(y1),y′2=HyperE(y2)#(8)
将通过距离函数 得到的分数定义 为:
dr(h,t)=| |y′1‑y′2||=||HyperE(h+r) ‑HyperE(t)| |#(9)。
7.根据权利要求1所述的一种基于任意维度超复数嵌入的知识图谱表示方法, 其特征
在于, 步骤2中所述的损失函数, 具体操作为:
负样本对于学习知识图嵌入和单词嵌入都非常有效, 使用类似于负采样损失的损失函
数来优化基于距离的模型, 即自对抗负采样方法, 根据当前 的嵌入模型对负三元组进行采
样, 设:权 利 要 求 书 2/3 页
3
CN 115168612 A
3
专利 一种基于任意维度超复数嵌入的知识图谱表示方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:52:48上传分享