(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111638017.6
(22)申请日 2021.12.2 9
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 张旻 杨启胜 汤景凡 姜明
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
代理人 朱月芬
(51)Int.Cl.
G06F 40/211(2020.01)
G06F 40/284(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/126(2020.01)
(54)发明名称
一种基于图同构网络的谓词抽取方法
(57)摘要
本发明公开了一种基于图同构网络的谓词
抽取方法。 本发明使用了DDParser工 具对文本句
子进行解析, 并利用句子解析后得到的词性结果
对分词序列中的专用名词进行泛化。 对Bert的嵌
入部分做调整, 加入对词性信息的编码, 将泛化
后的词序列输入到微调后的Bert模型中进行编
码。 使用GIN网络来获取依存树中每一个节点的
嵌入向量以及依存子树的表征向量。 再这之后通
过一层注 意力机制, 将语义信息还有依存结构信
息融合起来得到最终的节点嵌入向量。 最后, 本
发明将最终的词嵌入向量集合输入到一个二分
类器中, 得到谓词结果。 本发明使用了深度学习
的方式学习句子的结构模板特征, 大大减少了人
们的工作量, 有着较强的跨领域性和适应能力,
有效提升 了谓词抽取方法的准确性。
权利要求书2页 说明书4页 附图3页
CN 114330293 A
2022.04.12
CN 114330293 A
1.一种基于图同构网络的谓词抽取 方法, 其特 征在于包括如下步骤:
步骤(1)使用DDParser工具对输入句子进行解析, 得到分词结果、 词性和句法依存树信
息;
步骤(2)根据词性对分词中专有词进行泛化处理, 得到泛化处理后输入句子对应的泛
化词序列; 对Bert模 型的词嵌入部 分进行微调, 在词嵌入部 分加入词性信息的编码; 将泛化
词序列及步骤(1)中的词性信息作为 微调后的Ber t模型的输入, 输出隐藏向量 集合;
步骤(3)遍历步骤(1)中句法依存树信息中任意一棵子树, 把这棵子树中每条边的信息
转换为边向量, 然后再将这棵子树的信息以及步骤(2)的隐藏向量集合输入到GIN网络中,
获得节点嵌入向量, 对节点嵌入向量做池化处 理, 得到子树的表征向量;
步骤(4)利用步骤(3)中子树的表征向量和步骤(2)中的每一个隐藏向量计算注意力权
重, 再将这个注意力权重与步骤(3)中每个节点嵌入向量相乘, 得到最终节点嵌入向量集
合;
步骤(5)将步骤(4)中得到的带有语义信息的最终节点嵌入向量集合输入到一个二分
类器中, 得到一个二进制序列, 序列中每一个二进制指示对应的词是否为谓词。
2.根据权利要求1所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤
(1)具体实现过程如下:
使用DDParser对文本句子进行解析, 得到结果:
X=(x1,x2,…,xn) (1)
T(X)=(t1,t2,…,tn) (2)
D(X)=Dependency_Parser(X) (3)
其中, X表示分词后的序列, 公式(1)中x1,x2,…,xn表示分词结果, 公式(2)中t1,t2,…,
tn对应于公式(1)中x1,x2,…,xn的词性标注结果, D(X)是句法依存树。
3.根据权利要求2所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤
(2)具体实现过程如下:
2‑1根据词性标注结果T(X)对原序列X进行泛处理, 具体的规则内容如下: 将词性标注
结果为“LOC”、“f”、“s”、“<TIME>”、“<LOC>”、“<PER>”、“<ORG>”、“nw”、“nz”的词替换为 “PN”
标签, 得到泛化词序列X':
X'=(x'1,x'2,…,x'n) (4)
其中, x'1,x'2,…,x'n表示泛化后的词汇;
2‑2对Bert模型的embedding结构做微调, 在原来embedding结构中加入了Postag
Embedding层用以添加词性信息; 对泛化词序列X'做词嵌入处理, 将泛化词序列X'送入
Token Embedding层从而将每一个词转换为向量形式, 将泛化词序列X'送入Position
Embedding层获取每个词的顺序特征, 将词性标注结果T(X)送入Postag Embedding层获取
每个词的词 性特征, 最后将这三个结果进行拼接输入到Bert模型中得到最终的词嵌入, 得
到输出隐藏向量 集合;
词嵌入过程可以表达为如下式:
H=BERT(X', T(X) )={h1,h2,…,hn} (5)
其中, H为输出的隐藏向量 Ⅰ集合, h1,h2,…,hn为隐藏向量。
4.根据权利要求3所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤权 利 要 求 书 1/2 页
2
CN 114330293 A
2(3)具体实现过程如下:
3‑1遍历依存树中的任意两个节点, 计算这两个节点的最近公共祖先节点, 获得以公共
祖先节点为根、 两个节 点为叶的子树d(X); 把子树d(X)中所有边信息转换为边向量, 得到结
果:
E={e1,e2,…,eq} (6)
其中q表示当前子树中边的总数;
3‑2将隐藏向量集合H和子树d(X)输入到GIN网络中获取节点嵌入信息, 其中, GIN网络
由m层图同构卷积层组, 每一层的计算过程如下式:
其中,
表示节点i在第k层图同构卷积层输出的隐藏向量, 在第1层图同构卷积层中
为步骤(2)中Bert输出的隐藏向量, ε是一个可学习参数, N(i)表 示节点i的所有邻接节 点的
集合, E(i)表示节点 i的所有邻接边的集 合, ep为对应边的边嵌入, MLP是多层感知机算法;
3‑3对步骤3 ‑2中得到的最终节点嵌入向量做最大池化处 理, 获取子树的表征向量:
其中, hchild‑tree表示子树的表征向量,
表示节点嵌入向量。
5.根据权利要求4所述的一种基于图同构网络的谓词抽取方法, 所述步骤(4)具体实现
过程如下:
4‑1采用注意力机制对表征向量中的有效信息进行增强, 将子树表征向量hchild‑tree作为
Q, Bert模型输出的隐藏向量集合{h1,h2,…,hn}作为K, GIN网络输出的节点嵌入向量
作为V, 首 先利用Q和K计算注意力权 重wi, 详细计算过程如下式:
接下来, 模型将注意力权重pi应用对应的V中, 得到最终节点嵌入向量oi, 详细计算过程
如下式:
6.根据权利要求5所述的一种基于图同构网络的谓词抽取方法, 其特征在于所述步骤
(5)具体实现过程如下:
将最终的隐藏向量输入到一个二元分类器中, 对每一个词分配一个二进制标签, 该标
签指示当前词是否为谓词, 详细计算过程如下式:
pi=σ(Woi+b) (11)
其中W和b都是 可学习参数, σ 是sigmo id函数;
训练过程中, 损失函数定义 为:
Loss=CE(P,Y) (12)
其中P表示对标签的预测结果, Y表示真实标签, C E表示交叉熵损失函数。权 利 要 求 书 2/2 页
3
CN 114330293 A
3
专利 一种基于图同构网络的谓词抽取方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:54:45上传分享