专利一种基于图同构网络的谓词抽取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111638017.6 (22)申请日 2021.12.2 9 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人张旻　杨启胜　汤景凡　姜明　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/126(2020.01) (54)发明名称一种基于图同构网络的谓词抽取方法 (57)摘要本发明公开了一种基于图同构网络的谓词抽取方法。本发明使用了DDParser工具对文本句子进行解析，并利用句子解析后得到的词性结果对分词序列中的专用名词进行泛化。对Bert的嵌入部分做调整，加入对词性信息的编码，将泛化后的词序列输入到微调后的Bert模型中进行编码。使用GIN网络来获取依存树中每一个节点的嵌入向量以及依存子树的表征向量。再这之后通过一层注意力机制，将语义信息还有依存结构信息融合起来得到最终的节点嵌入向量。最后，本发明将最终的词嵌入向量集合输入到一个二分类器中，得到谓词结果。本发明使用了深度学习的方式学习句子的结构模板特征，大大减少了人们的工作量，有着较强的跨领域性和适应能力，有效提升了谓词抽取方法的准确性。权利要求书2页说明书4页附图3页 CN 114330293 A 2022.04.12 CN 114330293 A 1.一种基于图同构网络的谓词抽取方法，其特征在于包括如下步骤：步骤(1)使用DDParser工具对输入句子进行解析，得到分词结果、词性和句法依存树信息；步骤(2)根据词性对分词中专有词进行泛化处理，得到泛化处理后输入句子对应的泛化词序列；对Bert模型的词嵌入部分进行微调，在词嵌入部分加入词性信息的编码；将泛化词序列及步骤(1)中的词性信息作为微调后的Ber t模型的输入，输出隐藏向量集合；步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树，把这棵子树中每条边的信息转换为边向量，然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中，获得节点嵌入向量，对节点嵌入向量做池化处理，得到子树的表征向量；步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权重，再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘，得到最终节点嵌入向量集合；步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分类器中，得到一个二进制序列，序列中每一个二进制指示对应的词是否为谓词。 2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法，其特征在于所述步骤 (1)具体实现过程如下：使用DDParser对文本句子进行解析，得到结果： X＝(x1,x2,…,xn) (1) T(X)＝(t1,t2,…,tn) (2) D(X)＝Dependency_Parser(X) (3) 其中， X表示分词后的序列，公式(1)中x1,x2,…,xn表示分词结果，公式(2)中t1,t2,…, tn对应于公式(1)中x1,x2,…,xn的词性标注结果， D(X)是句法依存树。 3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法，其特征在于所述步骤 (2)具体实现过程如下： 2‑1根据词性标注结果T(X)对原序列X进行泛处理，具体的规则内容如下：将词性标注结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为 “PN” 标签，得到泛化词序列X'： X'＝(x'1,x'2,…,x'n) (4) 其中， x'1,x'2,…,x'n表示泛化后的词汇； 2‑2对Bert模型的embedding结构做微调，在原来embedding结构中加入了Postag Embedding层用以添加词性信息；对泛化词序列X'做词嵌入处理，将泛化词序列X'送入 Token Embedding层从而将每一个词转换为向量形式，将泛化词序列X'送入Position Embedding层获取每个词的顺序特征，将词性标注结果T(X)送入Postag Embedding层获取每个词的词性特征，最后将这三个结果进行拼接输入到Bert模型中得到最终的词嵌入，得到输出隐藏向量集合；词嵌入过程可以表达为如下式： H＝BERT(X'， T(X) )＝{h1,h2,…,hn} (5) 其中， H为输出的隐藏向量 Ⅰ集合， h1,h2,…,hn为隐藏向量。 4.根据权利要求3所述的一种基于图同构网络的谓词抽取方法，其特征在于所述步骤权　利　要　求　书 1/2 页 2 CN 114330293 A 2(3)具体实现过程如下： 3‑1遍历依存树中的任意两个节点，计算这两个节点的最近公共祖先节点，获得以公共祖先节点为根、两个节点为叶的子树d(X)；把子树d(X)中所有边信息转换为边向量，得到结果： E＝{e1,e2,…,eq} (6) 其中q表示当前子树中边的总数； 3‑2将隐藏向量集合H和子树d(X)输入到GIN网络中获取节点嵌入信息，其中， GIN网络由m层图同构卷积层组，每一层的计算过程如下式：其中，表示节点i在第k层图同构卷积层输出的隐藏向量，在第1层图同构卷积层中为步骤(2)中Bert输出的隐藏向量， ε是一个可学习参数， N(i)表示节点i的所有邻接节点的集合， E(i)表示节点 i的所有邻接边的集合， ep为对应边的边嵌入， MLP是多层感知机算法； 3‑3对步骤3 ‑2中得到的最终节点嵌入向量做最大池化处理，获取子树的表征向量：其中， hchild‑tree表示子树的表征向量，表示节点嵌入向量。 5.根据权利要求4所述的一种基于图同构网络的谓词抽取方法，所述步骤(4)具体实现过程如下： 4‑1采用注意力机制对表征向量中的有效信息进行增强，将子树表征向量hchild‑tree作为 Q， Bert模型输出的隐藏向量集合{h1,h2,…,hn}作为K， GIN网络输出的节点嵌入向量作为V，首先利用Q和K计算注意力权重wi，详细计算过程如下式：接下来，模型将注意力权重pi应用对应的V中，得到最终节点嵌入向量oi，详细计算过程如下式： 6.根据权利要求5所述的一种基于图同构网络的谓词抽取方法，其特征在于所述步骤 (5)具体实现过程如下：将最终的隐藏向量输入到一个二元分类器中，对每一个词分配一个二进制标签，该标签指示当前词是否为谓词，详细计算过程如下式： pi＝σ(Woi+b) (11) 其中W和b都是可学习参数， σ 是sigmo id函数；训练过程中，损失函数定义为： Loss＝CE(P,Y) (12) 其中P表示对标签的预测结果， Y表示真实标签， C E表示交叉熵损失函数。权　利　要　求　书 2/2 页 3 CN 114330293 A 3

专利 一种基于图同构网络的谓词抽取方法

专利一种基于图同构网络的谓词抽取方法