说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210161990.1 (22)申请日 2022.02.22 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学 (72)发明人 聂再清  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 孟省 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06F 40/186(2020.01) (54)发明名称 一种基于预训练语言模型的实体关系抽取 方法及装置 (57)摘要 本发明提供一种基于预训练语言模型的实 体关系抽取方法及装置。 该方法包括: 基于种子 知识从待抽取知识文本库获取相应的候选模板; 对所述候选模板进行排序及筛选, 确定Prompt模 板; 基于所述Prompt模板生成的提示文本、 预训 练语言模型以及Pro mpt Tuning方式对原始输入 信息进行实体知识挖掘, 获得相应的实体知识; 将所述实体知识作为新的种子知识, 利用所述新 的种子知识进行挖掘以产生新的候选模板, 并基 于所述新的候选模板进行循环迭代处理, 获得循 环迭代处理过程中输出的知识挖掘结果。 本发明 提供的基于预训练语言模型的实体关系抽取方 法, 能够降低Prompt模板的标注成本, 有效提高 知识挖掘的效率。 权利要求书2页 说明书7页 附图3页 CN 114661913 A 2022.06.24 CN 114661913 A 1.一种基于预训练语言模型的实体关系抽取 方法, 其特 征在于, 包括: 基于种子知识从待抽取知识文本库获取相应的候选模板; 对所述候选模板进行排序及 筛选, 确定Prompt模板; 基于所述Prompt模板生成的提示文本、 预训练语言模型以及Prompt  Tuning方式对原 始输入信息进行实体知识挖掘, 获得相应的实体知识; 将所述实体知识作为新的种子知识, 利用所述新的种子知识进行挖掘以产生新的候选 模板, 并基于所述新的候选模板进行循环迭代处理, 获得循环迭代处理过程中输出 的知识 挖掘结果。 2.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法, 其特征在于, 利用 所述新的种子知识进 行挖掘以产生新的候选模板, 并基于所述新的候选模板进行循环迭代 处理, 获得循环迭代处 理过程中输出的知识挖掘结果, 具体包括: 基于Prompt ‑Snowball方式循环挖掘所述新的种子知识对应 的新的候选模板, 并对所 述新的候选模板进行再次排序及筛选, 确定新的Prompt模板; 基于所述新的Prompt模板生 成的提示文本, 并利用所述预训练语言模型以及Prompt  Tuning方式对原始输入信息进行 实体知识挖掘, 获得循环迭代处 理过程中输出的知识挖掘结果。 3.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法, 其特征在于, 所述 对所述候选模板进行排序及筛 选, 确定Prompt模板, 具体包括: 根据所述候选模板的文本匹配频率或所述候选模板的字节长度对所述候选模板进行 排序及筛 选, 确定Prompt模板 。 4.根据权利要求1所述的基于预训练语言模型的实体关系抽取方法, 其特征在于, 还包 括: 基于所述Prompt模板生成提 示文本; 基于所述Prompt模板生成提 示文本, 具体包括: 根据所述Prompt模板对所述待抽取知识文本库中的文本进行分析, 以提取出与所述 Prompt模板对应的实体名称, 并基于所述实体名称和所述Prompt模板获得相应的提示文 本。 5.根据权利要求2所述的基于预训练语言模型的实体关系抽取方法, 其特征在于, 所述 Prompt‑Snowball为基于Snowball关系抽取算法确定的用于对知识文本进行挖掘的循环迭 代处理策略。 6.一种基于预训练语言模型的实体关系抽取装置, 其特 征在于, 包括: 模板确定单元, 用于基于种子知识从待抽取知识文本库获取相应的候选模板; 对所述 候选模板进行排序及筛 选, 确定Prompt模板; 知识挖掘单元, 用于基于所述Prompt模板生成的提示文本、 预训练语言模型以及 Prompt Tuning方式对原 始输入信息进行实体知识挖掘, 获得相应的实体知识; 循环迭代处理单元, 用于将所述实体知识作为新的种子知识, 利用所述新的种子知识 进行挖掘以产生新的候选模板, 并基于所述新的候选模板进行循环迭代处理, 获得循环迭 代处理过程中输出的知识挖掘结果。 7.根据权利要求6所述的基于预训练语言模型的实体关系抽取装置, 其特征在于, 所述 循环迭代处理单元, 具体用于: 基于Pr ompt‑Snowball方式循环挖掘所述新的种子知识对应 的新的候选模板, 并对 所述新的候选模板进行再次排序及筛选, 确定新的Prompt模板; 基于 所述新的Prompt模板生成 的提示文本, 并利用所述预训练语言模型以及Prompt  Tuning方权 利 要 求 书 1/2 页 2 CN 114661913 A 2式对原始输入信息进行实体知识挖掘, 获得循环迭代处 理过程中输出的知识挖掘结果。 8.根据权利要求6所述的基于预训练语言模型的实体关系抽取装置, 其特征在于, 还包 括: 提示文本生成单元; 所述提示文本生成单元, 具体用于: 根据所述Prompt模板对所述待 抽取知识文本库中的文本进行分析, 以提取出与所述Prompt模板对应的实体名称, 并基于 所述实体名称和所述Prompt模板获得相应的提 示文本。 9.一种电子设备, 包括存储器、 处理器以及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至5任意一项 所述的基于预训练语言模型的实体关系抽取 方法的步骤。 10.一种处理器可读存储介质, 所述处理器可读存储介质上存储有计算机程序, 其特征 在于, 所述计算机程序被处理器执行时实现如权利要求 1至5任意一项 所述的基于预训练语 言模型的实体关系抽取 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114661913 A 3

.PDF文档 专利 一种基于预训练语言模型的实体关系抽取方法及装置

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于预训练语言模型的实体关系抽取方法及装置 第 1 页 专利 一种基于预训练语言模型的实体关系抽取方法及装置 第 2 页 专利 一种基于预训练语言模型的实体关系抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。