(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111658767.X
(22)申请日 2021.12.31
(71)申请人 中科国力 (镇江) 智能技 术有限公司
地址 212000 江苏省镇江市高新 技术产业
开发区经十二路6 68号
(72)发明人 齐攀虎
(74)专利代理 机构 南京知识律师事务所 32 207
代理人 高娇阳
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/30(2020.01)
G06F 40/295(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于级联二进制标注框架的关系三元
组抽取方法
(57)摘要
本发明公开了一种基于级联二进制标注框
架的关系三元组抽取方法, 包括以下步骤: 将抽
取的句子经过BERT预训练模型处理后获得句子
中的语义特征表示HN编码向量; 解码输出 的HN编
码向量, 识别出Subject实体的Start和End位置
标签, 从而获取句子中所有可能的Subject实体
及其对应的T oken的特征向量矩阵Vsub; 将特征向
量矩阵Vsub的Token对应的向量取平均得到
Subject实体特征向量VK
sub, 融合输出的HN解码
向量, 获得融合的向量V 。 根据融合的向量V, 结合
一组特定的关系集合, 识别出对应关系的Object
实体的Start和End位置 标签, 从而识别出所有和
Subject实体相关的关系和Object实体, 最终抽
取出关系三元组。
权利要求书1页 说明书5页 附图2页
CN 114297408 A
2022.04.08
CN 114297408 A
1.一种基于级联二进制标注框架的关系三元组抽取 方法, 其特 征在于: 包括以下步骤:
步骤1): 级联二进制标注框架的Encoder端使用了BERT预训练模型, 将抽取的句子经过
BERT预训练模型处 理后获得句子中的语义特 征表示HN编码向量;
步骤2): 解码输出的HN编码向量, 识别出Subject实体的Start和End位置 标签, 从而获取
句子中所有可能的Subject实体及其对应的To ken的特征向量矩阵Vsub;
步骤3): 将特征向量矩阵Vsub的Token对应的向量取平均得到Subject实体特征向量
VK
sub, 融合输出的HN解码向量, 获得融合的向量V;
步骤4): 根据融合的向量V, 结合一组特定的关系集合, 识别出对应关系的Object实体
的Start和End位置标签, 从而识别出所有和Subject实体相关的关系和Object实体, 最终抽
取出关系三元组。
2.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法, 其特
征在于: 所述的步骤1)具体步骤 包括:
步骤11)输入为一个文本句子, 通过嵌入查找来获得输入的词嵌入表示, 位置嵌入表
示;
步骤12)将获得的所有嵌入层表示一起输入BERT预训练模型, 即通过12层编码器, 在每
一层编码器都采用自注意力机制来学习信息, 然后通过一个全连接层将之前学习到的信息
处理后传递给下一层编码器; BERT会在句子前加一个[CLS]标志, 最后一层的[CLS]作为整
个序列或者整个文本的语义信息, 从而获取语义编码向量HN。
3.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法, 其特
征在于: 所述的步骤2)具体步骤 包括:
步骤21)解码输出的语义编码向量HN, 从中提取 出每个Token的表示;
步骤22)采用两个相同的二进制 标签体系为每个Token指定一个Start和End位置的二
进制标记(0 /1), 得到句子中所有 Token的Star t和End位置的二进制标记(0 /1);
步骤23)采用Start ‑End位置就近原则, 识别出所有可能的Subject实体和其包含的所
有Token对应的解码向量矩阵Vsub。
4.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组方法, 其特征在
于: 所述的步骤3)具体步骤 包括:
步骤31)将Subject实体对应的Token的解码向量矩阵Vsub, 对矩阵中的所有向量取平均
得到VK
sub;
步骤32)将C1得到的平均向量VK
sub, 融合语义编码向量HN, 得到融合向量V。
5.根据权利要求1所述的一种基于级联二进制标注框架的关系三元组抽取方法, 其特
征在于: 所述的步骤4)具体步骤 包括:
步骤41)根据融合向量V, 结合一组特定的关系集合, 采用两个相同的二进制标签体系
为每个Token指定一个Star t和End位置的二进制标记(0 /1);
步骤42)采用Start ‑End位置就近原则, 识别出所有可能与Subject实体相关的特定关
系的Object实体, 从而抽取 出关系三元组。权 利 要 求 书 1/1 页
2
CN 114297408 A
2一种基于级 联二进制标注框架的关系三元组抽取方 法
技术领域
[0001]本发明涉及计算机领域中的自然语言处理技术, 特别是一种基于级联二进制标注
框架的关系三元组抽取 方法。
背景技术
[0002]随着信息处理技术和互联网的高速发展, 人们处理的数据量激增, 如何快速高效
地从这些开放领域的文本中抽取出实体及实体之间的关系信息, 成为迫切需要解决 的重要
问题, 实体关系抽取是针对非结构化数据进行信息抽取 的一项核心任务, 其主要目标是从
文本中抽取实体并识别实体对间的语义关系, 被广泛应用在知识图谱构建、 信息检索、 对话
生成和问答系统等方面。
[0003]实体关系抽取是自然语言处理中的一项重要的基础任务, 传统的方法是使用
pipeline模型, 即将实体关系抽取分为两个任务, 先进行实体识别, 后进行关系抽取, 这两
个任务是独立的, 忽略了这两个任务之间的内在联系和依赖关系, 实体识别的错误会影响
下一步关系抽取 的性能, 会造成错误传播与积累。 实体关系 联合抽取则是实体关系抽取中
的一个关键问题, 现有的实体关系联合抽取方法采用特征的结构化系统和端到端模型
(Encoder ‑Decoder)。 特征的结构化系统方法 处理起来比较复杂, 需要大量复杂的特征工程
和NLP工具包, 复杂的特征工程会增加人工的成本, 过分依赖NLP工具包会造成错误传播与
积累。 端到端模型是基于单标签标注, Encoder和Decoder端采用LSTM或者变种的LSTM神经
网络模型进行编码和解码, 从而将联合抽取问题转化为标注问题(机器学习问题), 实现了
将关系分配给实体对的离散标签, 即f(s,o)=r, 尽管将抽取问题转化为机器学习问题, 但
是在提取的大多数实体对中, 无法形成有效的关系, 这样就产生了大量的负例子, 导致样本
不平衡; 当同一实体对参与多个有效关系时, 分类器就会混淆, 因此无法识别重叠关系; 采
用LSTM神经网络也无法学习到句子中更加丰富的上下文信息, 从而导致 实体关系联合抽取
的效率和准确率不高。 因此本案中研究一种方法, 根据级联二进制标注框架, 通过端到端算
法进行关系三元组抽取。
[0004]本方法中 需要解决以下问题:
[0005](1)单标签标注模型将关系分配给实体对的离散标签, 会产生大量的负例子, 导致
样本不平衡。
[0006](2)采用LSTM神 经网络无法学习到句子中更加丰富 的上下文信息, 导致关系三元
组抽取的效率和准确率 不高。
[0007](3)当同一实体对参与 多个有效关系时, 分类器就会发生混淆, 导致无法识别重叠
关系。
发明内容
[0008]针对现有技术中存在的问题, 本发明提供了一种将关系 建模为将Subject实体映
射到句子中的Object实体, 即fr(s)=o, 解决了关系重叠问题, 而且抛弃了单标签标注模 型说 明 书 1/5 页
3
CN 114297408 A
3
专利 一种基于级联二进制标注框架的关系三元组抽取方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:18:33上传分享