说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111638017.6 (22)申请日 2021.12.2 9 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 张旻 杨启胜 汤景凡 姜明  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/126(2020.01) (54)发明名称 一种基于图同构网络的谓词抽取方法 (57)摘要 本发明公开了一种基于图同构网络的谓词 抽取方法。 本发明使用了DDParser工 具对文本句 子进行解析, 并利用句子解析后得到的词性结果 对分词序列中的专用名词进行泛化。 对Bert的嵌 入部分做调整, 加入对词性信息的编码, 将泛化 后的词序列输入到微调后的Bert模型中进行编 码。 使用GIN网络来获取依存树中每一个节点的 嵌入向量以及依存子树的表征向量。 再这之后通 过一层注 意力机制, 将语义信息还有依存结构信 息融合起来得到最终的节点嵌入向量。 最后, 本 发明将最终的词嵌入向量集合输入到一个二分 类器中, 得到谓词结果。 本发明使用了深度学习 的方式学习句子的结构模板特征, 大大减少了人 们的工作量, 有着较强的跨领域性和适应能力, 有效提升 了谓词抽取方法的准确性。 权利要求书2页 说明书4页 附图3页 CN 114330293 A 2022.04.12 CN 114330293 A 1.一种基于图同构网络的谓词抽取 方法, 其特 征在于包括如下步骤: 步骤(1)使用DDParser工具对输入句子进行解析, 得到分词结果、 词性和句法依存树信 息; 步骤(2)根据词性对分词中专有词进行泛化处理, 得到泛化处理后输入句子对应的泛 化词序列; 对Bert模 型的词嵌入部 分进行微调, 在词嵌入部 分加入词性信息的编码; 将泛化 词序列及步骤(1)中的词性信息作为 微调后的Ber t模型的输入, 输出隐藏向量 集合; 步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树, 把这棵子树中每条边的信息 转换为边向量, 然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中, 获得节点嵌入向量, 对节点嵌入向量做池化处 理, 得到子树的表征向量; 步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权 重, 再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘, 得到最终节点嵌入向量集 合; 步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分 类器中, 得到一个二进制序列, 序列中每一个二进制指示对应的词是否为谓词。 2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤 (1)具体实现过程如下: 使用DDParser对文本句子进行解析, 得到结果: X=(x1,x2,…,xn) (1) T(X)=(t1,t2,…,tn) (2) D(X)=Dependency_Parser(X)  (3) 其中, X表示分词后的序列, 公式(1)中x1,x2,…,xn表示分词结果, 公式(2)中t1,t2,…, tn对应于公式(1)中x1,x2,…,xn的词性标注结果, D(X)是句法依存树。 3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤 (2)具体实现过程如下: 2‑1根据词性标注结果T(X)对原序列X进行泛处理, 具体的规则内容如下: 将词性标注 结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为 “PN” 标签, 得到泛化词序列X': X'=(x'1,x'2,…,x'n) (4) 其中, x'1,x'2,…,x'n表示泛化后的词汇; 2‑2对Bert模型的embedding结构做微调, 在原来embedding结构中加入了Postag   Embedding层用以添加词性信息; 对泛化词序列X'做词嵌入处理, 将泛化词序列X'送入 Token Embedding层从而将每一个词转换为向量形式, 将泛化词序列X'送入Position   Embedding层获取每个词的顺序特征, 将词性标注结果T(X)送入Postag  Embedding层获取 每个词的词 性特征, 最后将这三个结果进行拼接输入到Bert模型中得到最终的词嵌入, 得 到输出隐藏向量 集合; 词嵌入过程可以表达为如下式: H=BERT(X', T(X) )={h1,h2,…,hn} (5) 其中, H为输出的隐藏向量 Ⅰ集合, h1,h2,…,hn为隐藏向量。 4.根据权利要求3所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤权 利 要 求 书 1/2 页 2 CN 114330293 A 2(3)具体实现过程如下: 3‑1遍历依存树中的任意两个节点, 计算这两个节点的最近公共祖先节点, 获得以公共 祖先节点为根、 两个节 点为叶的子树d(X); 把子树d(X)中所有边信息转换为边向量, 得到结 果: E={e1,e2,…,eq} (6) 其中q表示当前子树中边的总数; 3‑2将隐藏向量集合H和子树d(X)输入到GIN网络中获取节点嵌入信息, 其中, GIN网络 由m层图同构卷积层组, 每一层的计算过程如下式: 其中, 表示节点i在第k层图同构卷积层输出的隐藏向量, 在第1层图同构卷积层中 为步骤(2)中Bert输出的隐藏向量, ε是一个可学习参数, N(i)表 示节点i的所有邻接节 点的 集合, E(i)表示节点 i的所有邻接边的集 合, ep为对应边的边嵌入, MLP是多层感知机算法; 3‑3对步骤3 ‑2中得到的最终节点嵌入向量做最大池化处 理, 获取子树的表征向量: 其中, hchild‑tree表示子树的表征向量, 表示节点嵌入向量。 5.根据权利要求4所述的一种基于图同构网络的谓词抽取方法, 所述步骤(4)具体实现 过程如下: 4‑1采用注意力机制对表征向量中的有效信息进行增强, 将子树表征向量hchild‑tree作为 Q, Bert模型输出的隐藏向量集合{h1,h2,…,hn}作为K, GIN网络输出的节点嵌入向量 作为V, 首 先利用Q和K计算注意力权 重wi, 详细计算过程如下式: 接下来, 模型将注意力权重pi应用对应的V中, 得到最终节点嵌入向量oi, 详细计算过程 如下式: 6.根据权利要求5所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤 (5)具体实现过程如下: 将最终的隐藏向量输入到一个二元分类器中, 对每一个词分配一个二进制标签, 该标 签指示当前词是否为谓词, 详细计算过程如下式: pi=σ(Woi+b) (11) 其中W和b都是 可学习参数, σ 是sigmo id函数; 训练过程中, 损失函数定义 为: Loss=CE(P,Y) (12) 其中P表示对标签的预测结果, Y表示真实标签, C E表示交叉熵损失函数。权 利 要 求 书 2/2 页 3 CN 114330293 A 3

.PDF文档 专利 一种基于图同构网络的谓词抽取方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图同构网络的谓词抽取方法 第 1 页 专利 一种基于图同构网络的谓词抽取方法 第 2 页 专利 一种基于图同构网络的谓词抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:54:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。