专利一种计算机构建的嵌入式对齐方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210533061.9 (22)申请日 2022.05.16 (71)申请人吉林大学地址 130000 吉林省长春市前进大街269 9 号 (72)发明人管仁初　 (74)专利代理机构绍兴市寅越专利代理事务所 (普通合伙) 33285 专利代理师潘敏 (51)Int.Cl. G06F 16/36(2019.01) G06F 17/16(2006.01) G06F 40/295(2020.01) G06K 9/62(2022.01) (54)发明名称一种计算机构建的嵌入式对齐方法 (57)摘要本发明设计一种计算机构建的嵌入式对齐方法，通过本方法，本发明通过计算机将知识图谱的实体名称，属性信息通过大规模预训练语言模型构建出来，能够全面利用知识图谱上的语义信息，另外本发明通过将实体的一阶邻居，二阶邻居分别使用图注意力网络建模，实现更远距离实体信息的利用，使得能够捕捉更复杂的邻居结构，并使用特征线性调制的方法，将词嵌入和结构嵌入进行有效结合。在不同数据集上的实验结果表明，本发明具有较强的鲁棒性。同时设置消融实验验证本发明的有效性。权利要求书3页说明书10页 CN 114840688 A 2022.08.02 CN 114840688 A 1.一种计算机构建的嵌入式对齐方法，其特征在于：步骤一、设置所述基于变换器的双向编码器表示单元，所述基于变换器的双向编码器表示单元作用是将实体名称的词嵌入构造为均值为0且协方差矩阵为单位矩阵的向量；词嵌入是利用自然语言处理中语言模型与表征学习把一个维数为所有词的数量的高维空间嵌入到一个低维数的连续向量空间中，每个单词或词组被映射为实数域上的向量，然后通过基于变换器的双向编码器中表示单元中的大规模预训练语言模型获得两个知识图谱的N个实体名称的词嵌入集合其中N 为自然数， j为从1到N的自然数， xj表示单个的词嵌入，然后计算出词嵌入集合中均值 μ和协方差矩阵Σ，奇异值分解后接着根据需要事先设定的k的值来进行矩阵截取，即矩阵切片计算， k为自然数；其中所述均值μ和所述协方差矩阵Σ的计算为公式一：均值协方差矩阵这里T表示转置；并且为减少大规模预训练语言模型中学习到的潜在信息缓解实体名称偏差带来的影响，对于不同的数据集采用不同针对性的权重文件；步骤二、当产生一词多义和名称相同问题时，判断通过所述基于变换器的双向编码器表示单元模型获得的词嵌入集合是否也相同，若产生一词多义和名称相同问题时无上下文信息提供给所述基于变换器的双向编码器表示单元，则开始进行步骤三，即使用知识图谱的结构信息来进一步提升实体对齐的效果；步骤三、提取两个知识图谱中的对齐实体中有一定相似度的邻居，并且基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络，将关系信息融入到基于变换器的双向编码器中表示单元中的结构嵌入模型中，然后判断对齐实体的直接邻居或远距离邻居中是否可能出现语义关联的信息，再开始将直接邻居和远距离邻居的语义关联的信息进行聚合；图注意力网络是基于空间的图卷积网络，图注意力网络的注意机制在聚合特征信息时，以注意机制表征方式用于确定节点邻域的权重；步骤四、为能扩展多个跳跃的有效邻居，基于变换器的双向编码器中表示单元中采用门机制网络将一阶邻居和二阶邻居结合，从而扩展二阶到多阶范围的邻居实体，并以通过所述跳跃的有效邻居方式连接加速基于变换器的双向编码器中表示单元中的结构嵌入模型，以提高基于变换器的双向编码器中表示单元中的结构嵌入模型使用图注意力网络后的训练效果；门机制网络作用是当对齐实体的一阶邻居在不同知识图谱中完成相同时或者不完全相同时，为了减少一阶邻居差异带来的噪声，基于变换器的双向编码器中表示单元中的结构嵌入模型进行二阶邻居的聚合；当不同的具体实体分别为知识图谱中的中心实体和其一个一阶邻居实体，并设定第一注意力权重表示计算中心实体和其一个一阶邻居实体的不同关联，并通过非线性变换，使基于变换器的双向编码器中表示单元中的结构嵌入模型的输出的第一结果能够逼近非线性函数，进而处理更复杂的任务；为了使第一注意力权重在不同实体间可以进行比较，比较之前要进行归一化；当不同的具体实体，即知识图谱中的中心实体和其一个二阶邻居实体，并设定第二注意力权重表示计算中心实体和一个二阶邻居实体的不同关联，并通过非线性变换，使基于权　利　要　求　书 1/3 页 2 CN 114840688 A 2变换器的双向编码器中表示单元中的结构嵌入模型的输出的第二结果能够逼近非线性函数，进而处理更复杂的任务；为了使第二注意力权重在不同实体间可以进行比较，比较之前要进行归一化；分别使用两个矩阵和矩阵用于中心实体和邻居实体的变换，两个矩阵和矩阵开始进行初始化，两个矩阵和矩阵中的元素随着训练过程而改变，从而使基于变换器的双向编码器中表示单元中的结构嵌入模型的输入和输出满足系统要求。 2.根据权利要求1所述的一种计算机构建的嵌入式对齐方法，其特征在于：结合一阶邻居和二阶邻居的信息的实体S的嵌入hu计算如公式二： hu＝g(hi,2)·hi,1+(1‑g(hi,2))·hi,2，公式二；其中hi,1和hi,2分别指来自一阶邻居和二阶邻居聚合后的嵌入，功能函数g(hi,2)＝σ (Mhi,2+b)中， σ 是激活函数，用于给图注意力网络引入非线性因素，使得图注意力网络的功能能够任意逼近任何非线性函数， M和b分别是权重矩阵和偏置向量，权重矩阵M使用均匀分布初始化，偏置向量b使用全零初始化，权重矩阵和偏置向量两者中的元素随着训练过程而改变，从而使基于变换器的双向编码器中表示单元中的结构嵌入模型的输入和输出满足要求；步骤五、采用第一特征线性调制层联合词嵌入和结构嵌入，第一特征线性调制的方法具体计算方式如下公式三所示： hu,e＝FiLM(hu,s)＝hu,wW1e hu,s+hu,wW2，公式三；其中hu,s代表实体u的结构嵌入， hu,w代表实体u的词嵌入， ⊙代表哈达玛积运算，是矩阵的一种运算， W1和W2是两个已经分布初始化的使用特定均匀分布的矩阵，特定均匀分布用于保持图注意力网络各层的激活值和梯度的方法在传播过程中保持一致； FiLM(hu,s)代表图注意力网络中的特征线性调制方法，特征线性调制方法的最终输出hu,e是最终的实体嵌入，并通过进行余弦相似度计算得到对齐实体对；步骤六、除此之外，对于给定的对齐种子集合实体对，当其中对齐实体对中的两个实体由于来自不同的知识图谱，当不同的知识图谱的邻域结构不同时，为尽最大效率利用对齐种子集合实体对中的信息，在对齐任务开始之前，先对其中的实体进行邻域结构的扩充，将两个知识图谱中包含对齐种子集合实体对中的三元组互为补充，从而增强图注意力网络识别同构子图的能力，并且通过更加相似的邻域结构，使对齐种子集合中的实体对得到相同的嵌入表示更容易，从而当通过图注意力网络处理和传播后，将有利的影响因子扩展到整个知识图谱的嵌入中去，得到效果更加精准；设定步骤六中前置条件为：设定对齐损失函数和关系损失函数，通过对齐损失函数和关系损失函数计算图注意力网络每次迭代的前向计算结果与真实值的差距，从而指导下一步的训练向正确的方向进行，并通过将样本代入基于变换器的双向编码器中表示单元中的大规模预训练语言模型，计算输出的预测值；用对齐损失函数和关系损失函数计算预测值和真实值的误差；根据对齐损失函数和关系损失函数的导数，沿梯度最小方向将误差回传，修正前向计算公式中的可训练的矩阵和向量，当对齐损失函数和关系损失函数的损失值达到一个满意的值停止迭代，此时基于变换器的双向编码器中表示单元中的大规模预训练语言模型的训练完成；权　利　要　求　书 2/3 页 3 CN 114840688 A 3

专利 一种计算机构建的嵌入式对齐方法

专利一种计算机构建的嵌入式对齐方法