说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210616979.X (22)申请日 2022.06.01 (71)申请人 中译语通科技股份有限公司 地址 100131 北京市石景山区石景山路20 号中铁建 设大厦16层 (72)发明人 徐芳 蔡超 武学敏 杨万征  王雪  (74)专利代理 机构 北京兴智翔达知识产权代理 有限公司 1 1768 专利代理师 郭卫芹 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/28(2019.01) G06F 40/216(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) (54)发明名称 关系抽取方法、 系统、 设备及存 储介质 (57)摘要 本发明提出一种关系抽取方法、 系统、 设备 及存储介质, 该方法包括: 获取待抽取目标文本; 将所述待抽取目标文本输入到关系抽取模型中, 获取所述待抽取目标文本对应的实体关系, 其 中, 所述关系抽取模型为神经网络模型, 所述关 系抽取模型通过样本文本和样本标签进行训练 得到, 所述 关系抽取模型在训练过程中构建的模 板实体关系进行部分掩码。 本发明采用对p rompt 进行部分掩码掉的操作可以有效的降低预训练 模型微调和训练过程中的误差, 同时对p rompt和 原始文本构建句子对原始一条文本数据构建出 多条数据的方式可以解决微调语料不足的情况, 将已有知识进行最大化利用, 提高本发明实施例 中关系抽取方法的准确性。 权利要求书2页 说明书7页 附图2页 CN 114969372 A 2022.08.30 CN 114969372 A 1.一种关系抽取 方法, 其特 征在于, 包括: 获取待抽取目标文本; 将所述待抽取目标文本输入到关系抽取模型中, 获取所述待抽取目标文本对应的实体 关系, 其中, 所述关系抽取模型为神经网络模型, 所述关系抽取模型通过样 本文本和样 本标 签进行训练得到, 所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。 2.根据权利要求1所述的关系抽取方法, 其特征在于, 所述关系抽取模型通过样本文本 和样本标签进行训练得到, 通过如下步骤得到: 对所述样本文本进行 特征提取, 获取 所述样本文本中的样本实体; 根据所述样本实体, 基于预设实体关系模板, 对所述样本实体构建模板样本文本, 所述 模板样本文本包括 正模板样本文本和负模板样本文本; 利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练; 对所述正模板样本文本 中表征关系的词语进行掩码, 并利用掩码后的正模板样本文本 和所述样本标签对BERT的掩码语言模型进行训练, 获取训练后的BERT模型, 将训练后的 BERT模型作为所述关系抽取模型。 3.根据权利要求2所述的关系抽取方法, 其特征在于, 所述对所述样本文本进行特征提 取, 获取所述样本文本中的样本实体, 包括: 利用机器学习, 对所述样本文本进行识别, 获取样本实体。 4.根据权利要求2所述的关系抽取方法, 其特征在于, 所述根据所述样本实体, 基于预 设实体关系模板, 对所述样本实体构建模板样本文本, 包括: 对于所述样本实体中第 一样本实体和第 二样本实体, 对于所述预设实体关系 模板中的 每一预设实体关系, 构 造出所有能表达所述第一样本实体和所述第二样本实体为预设实体 关系的语句, 构造成的语句即为模板样本文本 。 5.根据权利要求3所述的关系抽取方法, 其特征在于, 所述对所述正模板样本文本 中表 征关系的词语进行掩码, 包括: 保留所述正模板样本文本 中的实体字样, 对所述正模板样本文本 中的关系字样进行掩 码。 6.一种关系抽取系统, 其特 征在于, 包括: 获取模块, 用于获取待抽取目标文本; 抽取模块, 用于将所述待抽取目标文本输入到关系抽取模型中, 获取所述待抽取目标 文本对应的实体关系, 其中, 所述关系抽取模型为神经网络模 型, 所述关系抽取模型通过样 本文本和样本标签进 行训练得到, 所述关系抽取模型在训练过程中构建的模板实体关系进 行部分掩码。 7.根据权利要求6所述的关系抽取系统, 其特征在于, 所述抽取模块包括特征提取单 元、 样本构建单 元、 第一训练单 元、 第二训练单 元 所述特征提取单元用于对所述样本文本进行特征提取, 获取所述样本文本 中的样本实 体; 所述样本构建单元用于根据所述样本实体, 基于预设实体关系模板, 对所述样本实体 构建模板样本文本, 所述模板样本文本包括 正模板样本文本和负模板样本文本; 所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型权 利 要 求 书 1/2 页 2 CN 114969372 A 2进行训练; 所述第二训练单元用于对所述正模板样本文本 中表征关系的词语进行掩码, 并利用掩 码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练, 获取训练后的 BERT模型, 将训练后的BERT模型作为所述关系抽取模型。 8.根据权利要求7所述的关系抽取系统, 其特征在于, 所述样本构建单元包括样本构建 子单元, 其中: 所述样本构建子单元用于对于所述样本实体中第 一样本实体和第 二样本实体, 对于所 述预设实体关系模板中的每一预设实体关系, 构造出所有能表达所述第一样本实体和所述 第二样本实体为预设实体关系的语句, 构造成的语句即为模板样本文本 。 9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器 上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1至 5中任一项所述关系抽取 方法的步骤。 10.一种计算机存储介质, 所述计算机存储介质存储有计算机程序, 其特征在于, 所述 计算机程序被处 理器执行时实现如权利要求1至 5中任一项所述关系抽取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114969372 A 3

.PDF文档 专利 关系抽取方法、系统、设备及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 关系抽取方法、系统、设备及存储介质 第 1 页 专利 关系抽取方法、系统、设备及存储介质 第 2 页 专利 关系抽取方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。