说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210317850.9 (22)申请日 2022.03.29 (71)申请人 科大讯飞 (苏州) 科技有限公司 地址 215000 江苏省苏州市工业园区金鸡 湖大道88号E4单元 (72)发明人 邹梦 李直旭 瞿剑锋 郑新  陈志刚  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 刘希 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/274(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种文本关系抽取方法、 装置、 设备以及存 储介质 (57)摘要 本申请公开了一种文本关系抽取方法、 装 置、 设备以及存储介质, 该方法包括: 获取目标文 本; 利用预训练的编码器对目标文件进行编码处 理, 得到目标文本的编码特征; 基于所述编码特 征, 利用句内关系抽取模型获得所述目标文本的 每个句子中的第一实体关系信息, 并利用全文关 系抽取模型获得所述目标文本包含的第二实体 关系信息。 通过上述方式, 本申请能够提高文本 关系抽取的准确率。 权利要求书4页 说明书14页 附图10页 CN 114610903 A 2022.06.10 CN 114610903 A 1.一种文本关系抽取 方法, 其特 征在于, 所述方法包括: 获取目标文本; 利用预训练的编码器对所述目标文本进行编码处 理, 得到目标文本的编码特 征; 基于所述编码特征, 利用句内关系抽取模型获得所述目标文本的每个句子 中的第一实 体关系信息, 并利用全文关系抽取模型获得 所述目标文本包 含的第二实体关系信息 。 2.根据权利要求1所述的抽取方法, 其特征在于, 所述利用全文关系抽取模型获得所述 目标文本包 含的第二实体关系信息, 包括: 基于所述目标文本对应的编码特征, 生成目标文档图; 其中, 所述目标文档图包含若干 实体节点和若干句 子节点, 每个所述实体节点表示 目标文本包含的一个实体, 每个所述句 子节点表示目标文本中包含的一个句子, 具有包含关系的实体与句子 分别对应的所述实体 节点与所述句子节点具有连接关系, 任意两个所述句子节点均具有连接关系; 从所述目标文档图中, 确定 至少一条关于 两个实体节点的实体关系路径; 基于每条所述实体关系路径, 确定对应的第二实体关系信 息, 其中, 所述实体关系路径 对应的第二实体关系信息表示所述实体关系路径所关于的两个实体节点对应的两个实体 之间的关系。 3.根据权利要求2所述的方法, 其特征在于, 所述从所述目标文档图中, 确定至少一条 关于两个实体节点的实体关系路径, 包括: 利用所述目标文档图中的实体节点, 组成至少一组目标实体节点对; 对于每组所述目标实体节点对, 利用所述目标实体节点对、 所述目标文档图的关联句 子节点和对应的连接 关系, 得到 关于所述目标实体节点对的实体 关系路径, 其中, 所述关联 句子节点 为所述目标实体节点对分别属于的句子对应的句子节点。 4.根据权利要求3所述的方法, 其特征在于, 所述利用所述目标文档图中的实体节点, 组成至少一组目标实体节点对, 包括: 将属于同一句子的两个实体节点组成第一目标实体节点对, 其中, 所述第一目标实体 节点对所对应的关联句子节点为所述第一目标实体节点对均属于的句子对应的句子节点; 和/或, 将属于不同句子的两个实体节点组成第二目标实体节点对, 其中, 所述第二目标实体 节点对所对应的关联句子节点包括所述第二目标实体节点对分别属于的两个句子对应的 两个句子节点。 5.根据权利要求4所述的方法, 其特征在于, 所述将属于不同句子的两个实体节点组成 第二目标实体节点对, 包括: 将所在的两个句子满足第 一条件的两个实体节点组成所述第 二目标实体节点对, 所述 第一条件为所述两个句子均出现中介实体, 关于所述第二目标实体节点对的实体关系路径 还包括所述中介实体对应的实体节点; 和/或, 将所在的两个句子满足第二条件的两个实体节点组成所述第二目标实体节点对, 其 中, 所述第二条件为所述两个句子相 邻、 且后一句子存在句首代词, 所述目标文档图还包括 句首代词节点, 关于所述第二目标实体节点对的实体关系路径还包括后一句子对应的所述 句首代词节点。 6.根据权利要求3所述的方法, 其特征在于, 所述基于每条所述实体关系路径, 确定对权 利 要 求 书 1/4 页 2 CN 114610903 A 2应的第二实体关系信息, 包括: 对于每条所述实体关系路径, 利用所述实体关系路径中包含的至少部分节点对应的编 码特征, 得到所述实体关系路径的路径特 征; 基于所述实体关系路径的路径特征, 对所述目标实体节点对进行关系分类, 得到所述 目标实体节点对 对应的两个节点之间的关系。 7.根据权利要求2所述的方法, 其特征在于, 所述基于所述目标文本对应的编码特征, 生成目标文档图, 包括: 基于所述目标文本对应的编码特征, 构建初始文档图, 其中, 所述初始文档图包含若干 目标指称节点和若干所述句子节点, 每个所述目标指称节点表示目标文本包含的一个目标 指称, 具有包含关系的目标指称与句子 分别对应的所述目标指称节点与所述句子节点具有 连接关系, 属于同一实体的两个目标指称具有连接关系, 任意两个所述句 子节点均具有连 接关系; 基于图神经网络对所述初始文档图进行 更新, 得到所述目标文档图。 8.根据权利要求1所述的方法, 其特征在于, 所述利用句内关系抽取模型获得所述目标 文本的每 个句子中的第一实体关系信息, 包括: 利用所述句内关系抽取模型分别对所述目标文本的每个句子对应的编码特征进行处 理, 对应得到所述目标文本的每 个句子中的第一实体关系信息 。 9.根据权利要求1所述的方法, 其特征在于, 所述方法还包括以下步骤, 以对所述编码 器进行预训练: 从语料库中获取第一训练样本文本, 其中, 所述语料库包括若干条样本文本, 每条样本 文本包括至少一个样本实体; 利用所述编码器对所述第 一训练样本文本进行编码, 得到所述第 一训练样本文本的第 一编码特 征; 利用至少一种处理方式对所述第 一训练样本文本的第 一编码特征进行处理, 以得到至 少一种处 理损失; 利用所述至少一种处 理损失, 调整所述编码器的参数。 10.根据权利要求9所述的方法, 其特 征在于, 所述样本文本为句子; 和/或, 所述利用至少一种处理方式对所述第 一训练样本文本的第 一编码特征进行处理, 以得 到至少一种处 理损失, 包括以下任意 一个或多个步骤: 从所述语料库中获取第一训练样本文本的至少一个关联样本文本, 其中, 所述关联样 本文本包括第一训练样本文本的正样本和/或负样本, 所述样本文本均包含至少 两个样本 实体; 利用所述编码器获取关联样本文本的第二编码特征; 基于所述第一训练样本文本中 的第一样本实体对的关系与关联样本文本中的第二样本实体对的关系之间的差异、 以及所 述第一编码特征中关于第一样本实体对的特征表示与所述第二编码特征中关于第二样本 实体对的特 征表示之间的相似度, 确定第一处 理损失; 查找出所述第 一训练样本文本 中的第一样本指称和第 二样本指称, 并使用第 一掩码替 换第一训练样本文本中的第一样本指称, 得到第一替代文本; 利用第二样本指称对第一替 代文本中被替代的位置进行指称还原, 得到第一衍生文本; 利用编码器获取第一衍生文本 的第三编码特 征; 基于所述第一编码特 征和第三编码特 征的相似度, 确定第二处 理损失;权 利 要 求 书 2/4 页 3 CN 114610903 A 3

.PDF文档 专利 一种文本关系抽取方法、装置、设备以及存储介质

文档预览
中文文档 29 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本关系抽取方法、装置、设备以及存储介质 第 1 页 专利 一种文本关系抽取方法、装置、设备以及存储介质 第 2 页 专利 一种文本关系抽取方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:54:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。