说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210609563.5 (22)申请日 2022.05.31 (71)申请人 浪潮电子信息产业股份有限公司 地址 250101 山东省济南市高新区浪潮路 1036号 (72)发明人 刘宇 王丽 郭振华 赵雅倩  李仁刚 闫瑞栋 刘璐 徐聪  金良 贾麒  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 杨傥月 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/36(2019.01) G06F 40/253(2020.01)G06F 40/30(2020.01) (54)发明名称 一种知识抽取方法、 系统、 设备及存 储介质 (57)摘要 本申请公开了一种知识抽取方法、 系统、 设 备及存储介质, 应用于数据处理技术领域, 包括: 确定文本语料库并进行标注, 构建索引得到标注 语料库; 设置用于表征关系信息的种子数据并检 索出相应句子确定出句子的检索词距离, 检索词 的语法解析树距离, 以及动词词组的语 法解析树 距离; 并基于确定出的句子各项距离, 按照权重 规则确定 出句子的各动词词组各自的加权值; 通 过汇总得出加权值之和最高的K个目标动词词 组; 从标注语料库中检索出包括目标动词词组的 各句子, 并按预设规则进行校验; 将通过校验之 后的各个句子, 汇总为对应于种子数据的知 识抽 取内容。 应用本申请的方案, 可 以有效进行知识 抽取, 且通用性高、 召回率高, 可得到高质量的知 识抽取内容。 权利要求书3页 说明书14页 附图4页 CN 114840632 A 2022.08.02 CN 114840632 A 1.一种知识抽取 方法, 其特 征在于, 包括: 确定文本语料库; 对所述文本语料库进行 标注, 并构建索引, 得到标注语料库; 设置用于表征关系信 息的种子数据, 并从所述标注语料库中检索出包括所述种子数据 中的检索词的各个句子; 针对任意1个句子, 确定出所述句子的检索词距离, 并通过所述句子的语法解析树确定 出所述句子的检索词的语法解析树距离, 并为所述句子中的每个实体找到与所述 实体距离 最近的动词 词组, 且确定出 各个动词 词组的语法解析树距离; 针对任意1个句子, 基于确定出的所述句子各项距离, 按照预设的权重规则确定出所述 句子的各个动词 词组各自的加权值; 根据每1个所述句子的各个动词词组各自的加权值, 通过汇总得出加权值之和最高的K 个动词词组, 作为选 定的K个目标动词 词组; K为 正整数; 针对任意1个所述目标动词词组, 从所述标注语料库中检索出包括所述目标动词词组 的各个句子, 并按照预设规则进行 校验; 将通过校验之后的各个句子, 汇总为对应于所述种子数据的知识抽取内容。 2.根据权利要求1所述的知识抽取方法, 其特征在于, 所述对所述文本语料库进行标 注, 包括: 对所述文本语料库进行实体标注, 以将文本链接 至实体; 对所述文本语料库进行共指消解, 以将文本中的代词链接 至所述代词的原 始名词。 3.根据权利要求2所述的知识抽取方法, 其特征在于, 所述对所述文本语料库进行实体 标注, 包括: 通过实体识别工具对所述文本语料库进行实体标注。 4.根据权利要求2所述的知识抽取方法, 其特征在于, 所述对所述文本语料库进行共指 消解, 包括: 通过自然语义处 理工具对所述文本语料库进行共指消解。 5.根据权利要求2所述的知识抽取 方法, 其特 征在于, 还 包括: 基于实体标注后的结果以及所述共指消解后的结果, 当任意1个代词指向无歧义的名 词对象时, 将所述代词链接 至实体。 6.根据权利要求1所述的知识抽取方法, 其特征在于, 在对文本语料库进行标注之前, 还包括: 对所述文本语料库进行 数据清理, 以消除无关信息 。 7.根据权利要求1所述的知识抽取方法, 其特征在于, 所述为所述句子中的每个实体找 到与所述实体距离最近的动词 词组, 包括: 通过最近邻居法, 为所述句子中的每 个实体找到与所述实体距离最近的动词 词组。 8.根据权利要求1所述的知识抽取方法, 其特征在于, 针对任意1个句子, 基于确定出的 所述句子各项距离, 按照预设的权重规则确定出所述句 子的各个动词词组各自的加权值, 包括: 针对任意1个句子中确定出的任意1个动词词组, 将句子的检索词距离对应的加权值, 句子的检索词的语法解析树距离对应的加权值, 以及所述动词词组的语法解析树距离对应权 利 要 求 书 1/3 页 2 CN 114840632 A 2的加权值进行求和, 得 出所述动词 词组的加权值; 其中, 句子的检索词距离与句子的检索词距离对应的加权值呈负相关, 句子的检索词 的语法解析树距离与句子的检索词的语法解析树距离对应的加权值呈负相关, 动词词组的 语法解析树距离与动词 词组的语法解析树距离对应的加权值呈负相关。 9.根据权利要求8所述的知识抽取方法, 其特征在于, 针对任意1个句子中确定出的任 意1个动词词组, 通过函数f1确定出句子的检索词距离对应的加权值, 通过函数f2确定出句 子的检索词的语法解析树距离对应的加权值, 通过函数f3确定出动词词组的语法解析树距 离对应的加权值; 并且, 函数f1为函数值基于句子的检索词距离进行线性变化的函数, 函数f2和函数f3均 为函数值基于相应距离进行指数性变化的函数。 10.根据权利 要求9所述的知识抽取方法, 其特征在于, 函数 f1设置为f1=1‑ax1, 其中, a 为设定的系数, x1为句子的检索词距离; 函数f2设置为f2=1/(W1*ex2), 其中, W1为设定的系数, x2为句子的检索词的语法解析树 距离; 函数f3设置为f3=1/(W2*ex3), 其中, W2为设定的系数, x3为动词词组的语法解析树距 离。 11.根据权利要求1所述的知识抽取方法, 其特征在于, 在通过汇总得出每个动词词组 的加权值之和之后, 还 包括: 针对任意1个动词词组, 确定出从所述标注语料库中检索出包括所述种子数据中的检 索词的各个句 子中, 所述动词词组的出现频率, 并基于所述出现频率确定出所述动词词组 的频率得分值, 且将所述频率得分值与所述动词词组的加权值之和进行叠加, 作为所述动 词词组的最终得分值; 相应的, 所述通过汇总得出加权值之和最高的K个动词词组, 作为选定的K个目标动词 词组, 包括: 将最终得分值 最高的K个动词 词组, 作为选 定的K个目标动词 词组。 12.根据权利要求1至11任一项所述的知识抽取方法, 其特征在于, 所述按照预设规则 进行校验, 包括: 针对任意1个待校验的句子, 通过所述句子的语法解析树, 在所述句子中找到与所述目 标动词词组距离最近的名词, 作为第一名词; 在所述句子 中找到与 所述第一名词距离最近的动词, 并判断找到的动词是否与所述目 标动词一 致; 如果是, 则所述待校验的句子通过 校验, 否则未通过 校验。 13.一种知识抽取系统, 其特 征在于, 包括: 文本语料库确定模块, 用于确定文本语料库; 标注语料库确定模块, 用于对所述文本语料库进行标注, 并构建索引, 得到标注语料 库; 检索模块, 用于设置用于表征关系信息的种子数据, 并从所述标注语料库中检索出包 括所述种子数据中的检索词的各个句子; 距离计算模块, 用于针对任意1个句子, 确定出所述句子的检索词距离, 并通过所述句权 利 要 求 书 2/3 页 3 CN 114840632 A 3

.PDF文档 专利 一种知识抽取方法、系统、设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种知识抽取方法、系统、设备及存储介质 第 1 页 专利 一种知识抽取方法、系统、设备及存储介质 第 2 页 专利 一种知识抽取方法、系统、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:55:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。