专利一种面向领域知识图谱构建的文本五元组数据抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210719382.8 (22)申请日 2022.06.23 (71)申请人北京交通大学地址 100044 北京市海淀区西直门外上园村3号 (72)发明人张致远　张乐　张振江　常艺茹　 (74)专利代理机构北京市商泰律师事务所 11255 专利代理师黄晓军 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向领域知识图谱构建的文本五元组数据抽取方法 (57)摘要本发明提供了一种面向领域知识图谱构建的文本五元组数据抽取方法。该方法包括：利用选取的文本数据对实体抽取模型和实体关系抽取模式进行训练，得到训练好的实体抽取模型和实体关系抽取模式；利用训练好的实体抽取模型对待处理的文本数据进行实体和实体属性进行提取，使用关系抽取模型对抽取出实体的数据进行关系抽取，得到实体对之间关系；将实体对、实体对属性以及实体对之间关系构成待处理的文本数据的五元组数据。本发明方法在进行关系模型训练时，采用充分排列组合的数据对关系抽取模型进行训练，同时将全部充分排列组合的实体对输入进关系抽取模型来抽取关系，增加训练数据量的同时可以提高模型训练的准确率，为构建大规模知识图谱奠基。权利要求书1页说明书6页附图2页 CN 114896424 A 2022.08.12 CN 114896424 A 1.一种面向领域知识图谱构建的文本五元组数据抽取方法，其特征在于，包括：从数据库中选取用于模型训练的文本数据，利用选取的文本数据对实体抽取模型和实体关系抽取模式进行训练，得到训练好的实体抽取模型和实体关系抽取模式；利用训练好的实体抽取模型对待处理的文本数据进行实体和实体属性进行提取，使用关系抽取模型对抽取出实体的数据进行关系抽取，得到实体对之间关系；将实体对、实体对属性以及实体对之间关系构成所述待处理的文本数据的五元组数据。 2.根据权利要求1所述的方法，其特征在于，所述的从数据库中选取用于模型训练的文本数据，包括；从数据库中选取用于模型训练的一定数量的文本数据，通过BMEO数据标注方式对每个文本数据中的实体、实体属性和实体类型进行标注， B表示实体的开头， M表示实体的中间， E 表示实体的结尾， O表示不属于任何类型；对文本数据中存在关系的实体进行关系标注，构成{entit y1； relation； entit y2}三元组的形式， entity1表示实体1， entity2表示实体2， relation表示entity1和entity2之间的关系。 3.根据权利要求2所述的方法，其特征在于，所述的利用选取的文本数据对实体抽取模型和实体关系抽取模式进行训练，得到训练好的实体抽取模型和实体关系抽取模式，包括；使用标注的实体数据对实体抽取模型进行训练，得到训练好的Bi ‑LSTM+CRF模型的实体抽取模型；对标注的关系数据进行处理，根据标注的关系数据、实体属性和实体类型生成没有关系的实体组合，将这类没有关系的实体组合定义为none，利用标注的关系数据和没有关系的实体组合对关系抽取模型进行训练，得到训练好的Bi ‑GRU模型的实体关系抽取模式。 4.根据权利要求1、 2或者3所述的方法，其特征在于，所述的利用训练好的实体抽取模型对待处理的文本数据进行实体和实体属性进行提取，使用关系抽取模型对抽取出实体的数据进行关系抽取，得到实体对之间关系，包括；使用训练好的实体抽取模型对待处理的文本数据进行实体抽取，同时将每个实体的属性进行提取，得到每条文本数据中的实体及实体对应的属性{entity,proper ty}；将提取出的每条文本数据的所有实体进行排列组合，找出所有可能实体间的关系，根据实体对应的属性将每条文本数据中有关系的实体和没有关系的实体进行组合，得到所有实体组合，使用训练好的关系抽取模型对所述所有实体组合进行关系抽取，得到每条文本数据中所有实体对组合之间的关系{entity1,relati on,entity2}。 5.根据权利要求4所述的方法，其特征在于，所述的将实体对、实体对属性以及实体对之间关系构成所述待处理的文本数据的五元组数据，包括；将提取出的所述待处理的文本数据的两个实体和两个实体之间的关系，以及两个实体的属性构成所述待处理的文本数据的五元组数据组:{entity1,property1,relation, entity2,proper ty2}。权　利　要　求　书 1/1 页 2 CN 114896424 A 2一种面向领域知识图谱构建的文本五元组数据抽取方法技术领域 [0001]本发明涉及自然语言处理技术领域，尤其涉及一种面向领域知识图谱构建的文本五元组数据抽取方法。背景技术 [0002]随着大数据时代的到来，海量的数据充斥着我们的生活，如何从庞杂的数据中筛选出重要信息，并加以高效地利用是重要的研究方向。 [0003]知识图谱是近年来文本分析和知识组合领域的研究热点，是一种以语义网络为基础的海量知识管理和服务模式，通过知识图谱技术对海量数据进行挖掘、抽取、清洗、融合、关联和推理，将无序数据变为知识网络，用图的形式反映现实中实体及实体间的关系，能够以更加直观的形式展示知识网络。知识图谱融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等多项技术，可广泛支持知识检索、智能问答、决策支持等智能应用。 [0004]从覆盖范围而言，知识图谱可分为通用性知识图谱和领域知识图谱。通用型知识图谱并不限定具体领域或边界，一般不具备规范的本体结构，其表现形态相当于一个百科类的知识库，更为强调知识的广度和覆盖面，通常采用自底向上的方式构建，并运用较多的自动化构建技术。通用型知识图谱主要应用于互联网搜索、推荐、开放域知识问答等业务场景。 [0005]领域型知识图谱又可称为行业知识图谱，主要面向特定的领域、行业或学科，通常有内部数据、互联网数据和行业数据库等数据来源，主要应用于辅助分析、决策支持和行业问答等业务场景，在医学、教育、金融、公安、法律、政务民生服务等领域已有较多应用。领域型知识图谱对专业性与准确度的要求较高，通常采用自顶向下的方式进行构建，一般有严格的本体结构和扩展规则。 [0006]知识图谱以结构化的形式组织客观世界的知识，具备富含语义信息的特点，在越来越多的垂直领域中被应用。在专业领域中，知识图谱可与问答系统相结合，既能提高专业知识的获取效率，服务于领域专家，又可降低专业知识的初级门槛，面向普罗大众。 [0007]然而在以往传统方法的构建知识图谱时，大都使用三元组数据进行构建，即两个实体和实体之间的关系。三元组抽取可以从海量文本中获取结构化信息，从而描述客观世界中的概念、实体间的复杂关系，提供了一种更好的组织、管理和海量理解互联网海量信息的能力。用三元组构建的知识图谱可以起到知识串联的功能，但是对于一些特定领域知识图谱下的运用，使用三元组构建并不能满足需求。比如使用三元组构建的知识图谱在进行知识检索时，只能使用实体或者关系的具体名称进行检索。 [0008]从非结构化文本中提取关系三元组是构建大规模知识图谱的关键，经过数据融合后的五元组成为智能问答、信息检索、推荐系统等上层人工智能应用的重要数据基础。五元组相比于三元组增加了两个实体的属性，以关系数据库Cypher为例，将两个实体属性一并存入Cypher用来构建知识图谱，可实现使用属性搜索来找到某一类特定关系的知识。从而说　明　书 1/6 页 3 CN 114896424 A 3

专利 一种面向领域知识图谱构建的文本五元组数据抽取方法

专利一种面向领域知识图谱构建的文本五元组数据抽取方法