(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210719382.8
(22)申请日 2022.06.23
(71)申请人 北京交通大 学
地址 100044 北京市海淀区西直门外上园
村3号
(72)发明人 张致远 张乐 张振江 常艺茹
(74)专利代理 机构 北京市商 泰律师事务所
11255
专利代理师 黄晓军
(51)Int.Cl.
G06F 16/36(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种面向领域知识图谱构建的文本五元组
数据抽取方法
(57)摘要
本发明提供了一种面向领域知识图谱构建
的文本五元组数据抽取方法。 该方法包括: 利用
选取的文本数据对实体抽取模型和实体关系抽
取模式进行训练, 得到训练好的实体抽取模型和
实体关系抽取模式; 利用训练好的实体抽取模型
对待处理的文本数据进行实体和实体属性进行
提取, 使用关系抽取模型对抽取出 实体的数据进
行关系抽取, 得到实体对之间关系; 将实体对、 实
体对属性 以及实体对之间关系构成待处理的文
本数据的五元组数据。 本发明方法在进行关系模
型训练时, 采用充分排列组合的数据对关系抽取
模型进行训练, 同时将全部充分排列组合的实体
对输入进关系抽取模型来抽取关系, 增加训练数
据量的同时可以提高模型训练的准确率, 为构建
大规模知识图谱奠基 。
权利要求书1页 说明书6页 附图2页
CN 114896424 A
2022.08.12
CN 114896424 A
1.一种面向领域知识图谱构建的文本五元组数据抽取 方法, 其特 征在于, 包括:
从数据库中选取用于模型训练 的文本数据, 利用选取的文本数据对实体抽取模型和实
体关系抽取模式进行训练, 得到训练好的实体抽取模型和实体关系抽取模式;
利用训练好的实体抽取模型对待处理 的文本数据进行实体和实体属性进行提取, 使用
关系抽取模型对抽取 出实体的数据进行关系抽取, 得到实体对之间关系;
将实体对、 实体对属性以及实体对之间关系构成所述待处理的文本数据的五元组数
据。
2.根据权利要求1所述的方法, 其特征在于, 所述的从数据库中选取用于模型训练的文
本数据, 包括;
从数据库中选取用于模型训练的一定数量的文本数据, 通过BMEO数据 标注方式对每个
文本数据中的实体、 实体属性和实体类型进行标注, B表 示实体的开头, M表 示实体的中间, E
表示实体的结尾, O表示 不属于任何类型;
对文本数据中存在关系的实体进行关系标注, 构成{entit y1; relation; entit y2}三元
组的形式, entity1表示实体1, entity2表示实体2, relation表示entity1和entity2之间的
关系。
3.根据权利要求2所述的方法, 其特征在于, 所述的利用选取的文本数据对实体抽取模
型和实体关系抽取模式进行训练, 得到训练好的实体抽取模型和实体关系抽取模式, 包括;
使用标注的实体数据对实体抽取模型进行训练, 得到训练好的Bi ‑LSTM+CRF模型的实
体抽取模型;
对标注的关系数据进行处理, 根据标注的关系数据、 实体属性和实体类型生成没有关
系的实体组合, 将这类没有关系的实体组合定义为none, 利用标注的关系数据和没有关系
的实体组合对关系抽取模型进行训练, 得到训练好的Bi ‑GRU模型的实体关系抽取模式。
4.根据权利要求1、 2或者3所述的方法, 其特征在于, 所述的利用训练好的实体抽取模
型对待处理的文本数据进 行实体和实体属性进行提取, 使用关系抽取模型对抽取出实体的
数据进行关系抽取, 得到实体对之间关系, 包括;
使用训练好的实体抽取模型对待处理 的文本数据进行实体抽取, 同时将每个实体的属
性进行提取, 得到每条文本数据中的实体及实体对应的属性{entity,proper ty};
将提取出的每条文本数据的所有实体进行排列组合, 找出所有可能实体间的关系, 根
据实体对应的属性将 每条文本数据中有关系的实体和没有关系的实体进 行组合, 得到所有
实体组合, 使用训练好的关系抽取模型对所述所有实体组合进行关系抽取, 得到每条文本
数据中所有实体对组合之间的关系{entity1,relati on,entity2}。
5.根据权利要求4所述的方法, 其特征在于, 所述的将实体对、 实体对属性以及实体对
之间关系构成所述待处 理的文本数据的五元组数据, 包括;
将提取出的所述待处理 的文本数据的两个实体和两个实体之间的关系, 以及两个实体
的属性构成所述待处理的文本数据的五元组数据组:{entity1,property1,relation,
entity2,proper ty2}。权 利 要 求 书 1/1 页
2
CN 114896424 A
2一种面向领域知识图谱构建的文本五元组数据抽取方 法
技术领域
[0001]本发明涉及自然语言处理技术领域, 尤其涉及一种面向领域知识图谱构建的文本
五元组数据抽取 方法。
背景技术
[0002]随着大数据时代的到来, 海量的数据充斥着我们的生活, 如何从庞杂的数据 中筛
选出重要信息, 并加以高效地利用是重要的研究方向。
[0003]知识图谱是近年来文本分析和知识组合领域的研究热点, 是一种以语义网络为基
础的海量知识管理和服务模式, 通过知识图谱技术对海量数据进 行挖掘、 抽取、 清洗、 融合、
关联和推理, 将无序数据变为知识网络, 用图的形式反映现实中实体及实体间的关系, 能够
以更加直观的形式展示知识网络。 知识图谱融合认知计算、 知识表 示与推理、 信息检索与抽
取、 自然语言处理与语义Web、 数据挖掘与机器学习等多项技术, 可广泛支持知识检索、 智能
问答、 决策支持等智能应用。
[0004]从覆盖范围而言, 知识图谱可分为通用性知识图谱和领域知识图谱。 通用型知识
图谱并不限定具体领域或边界, 一般不具备规范 的本体结构, 其表现形态相当于一个百科
类的知识库, 更为 强调知识的广度和覆盖面, 通常采用自底向上的方式构建, 并运用较多的
自动化构建技术。 通用型知识图谱主要应用于互联网搜索、 推荐、 开放域知识问答等业务场
景。
[0005]领域型知识图谱又可称为行业知识图谱, 主要面向特定的领域、 行业或学科, 通常
有内部数据、 互联网数据和行业数据库等数据来源, 主要应用于辅助分析、 决策支持和行业
问答等业务场景, 在医学、 教育、 金融、 公安、 法律、 政务民生服务等领域已有较多应用。 领域
型知识图谱对专业性与准确度的要求较高, 通常采用自顶向下的方式进行构建, 一般有严
格的本体结构和扩展规则。
[0006]知识图谱以结构化的形式组织客观世界的知识, 具备富含语义信息 的特点, 在越
来越多的垂 直领域中被应用。 在专 业领域中, 知识图谱可与问答系统相结合, 既能提高专 业
知识的获取效率, 服 务于领域专 家, 又可降低专业知识的初级门槛, 面向普罗大 众。
[0007]然而在以往传统方法的构建知识图谱时, 大都使用三元组数据进行构建, 即两个
实体和实体之间的关系。 三元组抽取可以从海量文本中获取结构化信息, 从而描述客观世
界中的概念、 实体间的复杂关系, 提供了一种更好的组织、 管理和海量理解互联网海量信息
的能力。 用三元组构建的知识图谱可以起到知识串联的功 能, 但是对于一些特定领域知识
图谱下的运用, 使用三元组构建并不能满足需求。 比如使用三元组构建的知识图谱在进行
知识检索时, 只能使用实体或者关系的具体名称进行检索。
[0008]从非结构化文本中提取关系三元组是构建大规模知识图谱的关键, 经过数据融合
后的五元组成为智能问答、 信息检索、 推荐系统等上层人工智能应用的重要数据基础。 五元
组相比于三元组增加了两个实体的属性, 以关系数据库Cypher为例, 将两个实体属性一并
存入Cypher用来构建知识图谱, 可实现使用 属性搜索来找到某一类特定关系的知识。 从而说 明 书 1/6 页
3
CN 114896424 A
3
专利 一种面向领域知识图谱构建的文本五元组数据抽取方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:56:49上传分享