说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111641146.0 (22)申请日 2021.12.2 9 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 姜明 孟佳营 张旻  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于预训练模型结合句法子树的关系 分类方法 (57)摘要 本发明公开了一种基于预训练模型结合句 法子树的关系分类方法。 首先是利用BERT预训练 模型构建词向量、 句子表征向量、 实体向量。 为了 结合句法信息, 利用Spacy工具包对于句子进行 依存句法分析, 然后对于分析结果进行预处理, 得到边以及边的类别。 在结合句法信息时利用循 环神经网络RvNN进行递归计算, 得到每个子树的 表征向量, 这一步的目的是得到句法依赖树的拓 补信息、 语义信息、 边的类别信息。 将每个子树的 表征向量进行最大池化获得树的表征向量。 将实 体向量、 句子表征向量、 树的表征向量进行拼接, 然后进行关系类别预测。 本发明能更好的解决词 向量和句法子树信息融合的问题, 并且能提取到 更深层的、 信息更充分的词向量, 具有很好的鲁 棒性。 权利要求书3页 说明书4页 附图2页 CN 114328924 A 2022.04.12 CN 114328924 A 1.一种基于预训练模型 结合句法子树的关系分类方法, 其特 征在于包括以下步骤: 步骤(1)对数据集中的句子S进行分词, 构建输入序列; 将输入序列通过BERT预训练模 型, 获得每个词的输入词向量、 整句话的句子表征向量、 两个需要预测关系类别的实体向 量; 步骤(2)对数据集中的句子S, 利用Spacy工具进行依存句法分析, 得到句子中词与词之 间的边、 边的类别以及句法依赖树, 利用映射 函数将边的类别转换成边的类别id; 步骤(3)以句法依赖树中两个实体为叶子节点, 并计算两个 叶子节点的最近公共祖先 节点; 获得以最近公共祖先节点为根, 两个实体节点为叶子的子树, 将输入词向量中该子树 部分的词向量、 边的类别id、 边输入到递归神经网络RvNN进行计算, 得到每个子树表征向 量; 步骤(4)将所有子树表征向量进行最大池化, 得到句子的树表征向量; 步骤(5)将句子表征向量、 句子的树表征向量、 两个 需要预测关系类别的实体向量进行 拼接输入到softmax分类函数中进行分类, 预测关系类别。 2.根据权利要求1所述的一种基于预训练模型结合句法子树的关系分类方法, 其特征 在于所述 步骤(1)具体实现过程如下: 1‑1首先利用Sp acy工具包对句子S进行分词构建输入序列Se={w1, w2, …, wn}, 其中n 表示序列的长度, w1, w2, …, wn为句子的每一个词; 1‑2假定两个实体为e1, e2, 在输入序列构建完成之后, 将会被输入到BERT预训练模型 中得到每个词的输入词向量H∈Rd×n、 整句话的句子表征向量SV、 两个需要预测关系类别的 实体向量E1, E2; 其中d为词向量的维度, n为序列长度, SV, E1, E2的维度为1 ×768, 过程表示 为下式: SV, H=BERT(Se)=SV, {h1, h2, …, hn}   (1) 其中, h1, h2, …, hn为BERT预训练模型编码之后的输入词向量, SV为句子表征向量, Se 为步骤1‑1中输入序列, BERT为预训练模型; 实体e1, e2对应实体向量即为E1, E2。 3.根据权利要求1所述的一种基于预训练模型结合句法子树的关系分类方法, 其特征 在于所述 步骤(2)具体实现过程如下: 2‑1将句子S输入到Spacy句法分析工具中: I=nlp(S)   (2) 公式(2)中S为输入的句子, nlp为加载Spacy依存句法分析工具包, I为输出; 对输出I进 行预处理, 从而获得句法依赖树上的边Edge以及边的类别EdgeType; 利用映射函数将边的 类别EdgeType转换为 边的类别id, 即EdgeTypeId。 4.根据权利要求3所述的一种基于预训练模型结合句法子树的关系分类方法, 其特征 在于所述 步骤(3)具体实现过程如下: 3‑1以两个实体为叶子节点计算他们的最近公共祖先节点, 在I中获得以最近公共祖先 节点为根, 以两个实体为叶子节点的子树subTree, 并且在H中取出子树subTree对应向量 subTreeV, 过程表示 为下式: Root=lca(e1, e2)    (3) subTree=acquireSubTre e(I, Root, e1, e2)    (4) subTreeV=acquire(H, subTre e)   (5)权 利 要 求 书 1/3 页 2 CN 114328924 A 2其中, e1, e2为两个实体, lca为计算最近公共祖先节点的函数, Root为以e1, e2为叶子 节点的最近公共祖先节点; I为步骤2 ‑1中(2)式的输出结果, acquireSubTree为获得子树的 函数, subTree为以Root为根, e1, e2为叶子节点的子树; H为步骤1 ‑1中(1)式的输出向量, subTreeV为以Ro ot为根, e1, e2为叶子节点的子树对应向量; 3‑2将子树对应向量subTreeV、 边的类别idEdgeTypeId、 边Edge输入到递归神经网络 RvNN, 递归的进行计算当前子树的每 个子树的表征向量, 公式表示如下: TreeV=RvNN(subTre eV, EdgeTypeId, Edge)    (6) 其中, Edge为步骤2 ‑1中获得的边, EdgeTypeId为边的类别id, H为步骤 1‑2中(1)式 的输 出向量; RvN N为递归神经网络, Tre eV为递归神经网络的输出的子树表征向量; 对于当前子树中的每个子树的表征向量, 由当前子树的每个子树的表征向量与边的类 别id向量相乘后求和得到, 具体 计算公式如下: ei=map(EdgeTypeId[i])    (7) xi=subTre eV[i]+∑pep*xp  (8) TreeV=[x1, x2, …xk]   (9) 其中EdgeTypeId[i]第i条边的类别Id, map为边的类别Id映射函数, ei为第i条边的类别 Id映射的向量; subTreeV[i]为i子树对应 向量, p为i节点的相邻子树节点, ep为第p条边的 类别Id映射的向量, xp为当前计算第p个子树的表征向量, 将上述x1, x2, …xk组合即为子树 中每个子树的表征向量Tre eV, k是以Ro ot为根节点的子树的大小。 5.根据权利要求4所述的一种基于预训练模型结合句法子树的关系分类方法, 其特征 在于所述 步骤(4)具体实现过程如下: 4‑1将表征向量Tre eV输入到最大池化 函数中, 得到句子的树表征向量, 公式表示如下: SentenceTre eV=Maxpo ol(TreeV)  (10) 其中, TreeV为步骤3 ‑2中(6)式的输出的表征向量, Maxpool为最大池化函数, SentenceTre eV为句子的树表征向量。 6.根据权利要求5所述的一种基于预训练模型结合句法子树的关系分类方法, 其特征 在于所述 步骤(5)具体实现过程如下: 5‑1将句子表征向量SV、 句子的树表征向量SentenceTreeV、 两个需要预测关系类别的 实体向量E1, E2进行拼接, 然后输入到softmax函数中得到类别概率分布, 取最大值即为预 测关系类别, 公式表示如下: V=Cat(SV, SentenceTre eV, E1, E2)    (11) probility=softmax(V)    (12) predictType=argmax(probi lity)   (13) 其中, E1, E2为两个需要预测关系类别的实体向量, S entenceTreeV为步骤4 ‑1中(11)式 的输出向量, SV为步骤1 ‑2中(1)式的输出向量, E1, E2为实体向量; Cat为拼接函数; V为拼接 后的输出向量; softmax为归一化指数函数, probility为预测的所有关系类别概率分布; argmax为取 得类别概 率分布的最大值下 标函数; predictType为预测关系的类别; 5‑2损失函数为交叉熵损失函数, 公式表示如下: 权 利 要 求 书 2/3 页 3 CN 114328924 A 3

.PDF文档 专利 一种基于预训练模型结合句法子树的关系分类方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预训练模型结合句法子树的关系分类方法 第 1 页 专利 一种基于预训练模型结合句法子树的关系分类方法 第 2 页 专利 一种基于预训练模型结合句法子树的关系分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。