(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111194402.6
(22)申请日 2021.10.13
(66)本国优先权数据
202111037638.9 2021.09.0 6 CN
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 刘康龙 荆宁 罗雨 梁海金
(74)专利代理 机构 北京三高永信知识产权代理
有限责任公司 1 1138
代理人 孙晓丽
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/126(2020.01)G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
关系抽取方法、 装置、 设备和存 储介质
(57)摘要
本申请公开了一种关系抽取方法、 装置、 设
备和存储介质, 涉及人工智能、 智慧交通等技术
领域。 所述方法包括: 获取包含第一实体和第二
实体的目标文本; 对目标文本中的第一实体、 第
二实体和关键词进行标注, 得到带标注的目标文
本; 对带标注的目标文本进行编码处理, 得到第
一实体对应的编码表示向量和实体关键词表示
向量, 以及第二实体对应的编码表 示向量和实体
关键词表 示向量; 根据第一实体对应的编码表示
向量和实体关键词表示向量, 以及第二实体对应
的编码表 示向量和实体关键词表 示向量, 确定第
一实体和第二实体间的关系。 本申请提供了一种
泛化性更强的关系抽取方案, 从而有助于提升关
系抽取结果的完 善度和准确性。
权利要求书4页 说明书22页 附图9页
CN 114281938 A
2022.04.05
CN 114281938 A
1.一种关系抽取 方法, 其特 征在于, 所述方法包括:
获取包含第一实体和第二实体的目标文本;
对所述目标文本中的所述第一实体、 所述第二实体和关键词进行标注, 得到带标注的
目标文本; 其中, 所述关键词 是指所述 目标文本中能够体现所述第一实体和所述第二实体
间的关系的字词;
对所述带标注的目标文本进行编码处理, 得到所述第 一实体对应的编码表示向量和实
体关键词表示向量, 以及所述第二 实体对应的编码表示向量和实体关键词表示向量; 其中,
所述编码表示向量用于反映实体的特征信息, 所述实体关键词表示向量用于反映实体与所
述关键词之间的关联度;
根据所述第 一实体对应的编码表示向量和实体关键词表示向量, 以及所述第 二实体对
应的编码表示向量和实体关键词表示向量, 确定所述第一实体和所述第二实体间的关系。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述带标注的目标文本进行编码处
理, 得到所述第一实体对应的编码表示向量和实体关键词表示向量, 以及所述第二实体对
应的编码表示向量和实体关键词表示向量, 包括:
通过编码网络对所述带标注的目标文本进行编码处理, 得到所述第 一实体对应的编码
表示向量和所述第二实体对应的编码表示向量;
获取所述编码网络的中间层特 征向量;
采用注意力 机制对所述中间层特征向量进行处理, 得到所述第 一实体对应的实体关键
词表示向量和所述第二实体对应的实体关键词表示向量。
3.根据权利要求2所述的方法, 其特征在于, 所述采用注意力 机制对所述中间层特征向
量进行处理, 得到所述第一 实体对应的实体关键词表示向量和所述第二 实体对应的实体关
键词表示向量, 包括:
从所述中间层特征向量中, 筛选出所述第一实体对应的中间特征向量、 所述第二实体
对应的中间特 征向量, 以及所述关键词对应的中间特 征向量;
以所述第一实体为锚点, 计算所述第 一实体对应的中间特征向量相对于所述第 二实体
对应的中间特征向量和所述关键词对应的中间特征向量的注意力, 得到所述第一 实体对应
的实体关键词表示向量;
以所述第二实体为锚点, 计算所述第 二实体对应的中间特征向量相对于所述第 一实体
对应的中间特征向量和所述关键词对应的中间特征向量的注意力, 得到所述第二 实体对应
的实体关键词表示向量。
4.根据权利要求1所述的方法, 其特征在于, 所述对所述带标注的目标文本进行编码处
理, 得到所述第一实体对应的编码表示向量和实体关键词表示向量, 以及所述第二实体对
应的编码表示向量和实体关键词表示向量之后, 还 包括:
获取所述第一实体对应的实体关键词表示向量和所述第二实体对应的实体关键词表
示向量之间的差异 表示向量;
其中, 所述差异表示向量用于结合所述第 一实体对应的编码表示向量和实体关键词表
示向量以及所述第二 实体对应的编 码表示向量和实体关键词表示向量, 确定所述第一实体
和所述第二实体间的关系。
5.根据权利要求4所述的方法, 其特征在于, 所述获取所述第 一实体对应的实体关键词权 利 要 求 书 1/4 页
2
CN 114281938 A
2表示向量和所述第二实体对应的实体关键词表示向量之间的差异信息, 包括:
将所述第一实体对应的实体关键词表示向量减去所述第二实体对应的实体关键词表
示向量, 得到第一差值向量;
将所述第二实体对应的实体关键词表示向量减去所述第一实体对应的实体关键词表
示向量, 得到第二差值向量;
将所述第一差值向量和所述第二差值向量进行拼接, 得到所述差异 表示向量。
6.根据权利要求1所述的方法, 其特征在于, 所述根据所述第 一实体对应的编码表示向
量和实体关键词表示向量, 以及所述第二实体对应的编码表示向量和实体关键词表示向
量, 确定所述第一实体和所述第二实体间的关系, 包括:
将所述第一实体对应的编码表示向量、 所述第二实体对应的编码表示向量、 所述第一
实体对应的实体关键词表示向量和所述第二 实体对应的实体关键词表示向量进行拼接, 得
到拼接向量;
通过分类网络对所述 拼接向量进行处 理, 输出多个候选关系分别对应的置信度;
基于所述多个候选关系分别对应的置信度, 确定所述第 一实体和所述第 二实体间的关
系。
7.根据权利要求6所述的方法, 其特征在于, 所述基于所述多个候选关系分别对应的置
信度, 确定所述第一实体和所述第二实体间的关系, 包括:
根据所述多个候选关系分别对应的置信度, 选择置信度最大的目标候选关系;
若所述目标候选关系 满足条件, 则将所述目标候选关系确定为所述第 一实体和所述第
二实体间的关系;
其中, 所述条件 包括以下至少一项:
所述目标文本 中包含所述目标候选关系对应的白名单中的字词, 和/或, 所述目标文本
中不包含所述目标候选关系对应的黑名单中的字词;
所述目标候选关系对应的置信度大于或等于第一阈值;
所述第一实体、 所述第 二实体和所述目标候选关系在素材文本中的出现次数大于或等
于第二阈值。
8.根据权利要求1所述的方法, 其特征在于, 所述获取包含第 一实体和第 二实体的目标
文本, 包括:
获取候选实体集 合, 所述候选实体集 合中包括多个实体;
将所述候选实体集 合中的实体两 两组合, 得到多个实体对;
对于所述多个实体对中包含所述第 一实体和所述第 二实体的目标实体对, 从素材文本
中选取包 含所述第一实体和所述第二实体的目标文本 。
9.一种关系抽取模型的训练方法, 其特 征在于, 所述方法包括:
获取关系抽取模型的训练样本, 所述训练样本包括: 包含第一实体和第二实体的样本
文本, 以及所述第一实体和所述第二实体间的真实关系;
对所述样本文本中的所述第一实体、 所述第二实体和关键词进行标注, 得到带标注的
样本文本; 其中, 所述关键词 是指所述样本文本中能够体现所述第一实体和所述第二实体
间的关系的字词;
通过所述关系抽取模型的编码网络对所述带标注的样本文本进行编码处理, 得到所述权 利 要 求 书 2/4 页
3
CN 114281938 A
3
专利 关系抽取方法、装置、设备和存储介质
文档预览
中文文档
36 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共36页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 02:01:23上传分享