专利 一种实体关系抽取方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210264276.5 (22)申请日 2022.03.17 (65)同一申请的已公布的文献号申请公布号 CN 114610819 A (43)申请公布日 2022.06.10 (73)专利权人中科世通亨奇（北京）科技有限公司地址 100083 北京市海淀区学院路甲5号2 幢平房北1 102 (72)发明人喻野　黄宇　 (74)专利代理机构广州鼎贤知识产权代理有限公司 44502 专利代理师刘莉梅 (51)Int.Cl. G06F 16/28(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (56)对比文件 CN 113553440 A,2021.10.26 CN 112487807 A,2021.0 3.12 CN 112183465 A,2021.01.0 5 审查员陈雅萍 (54)发明名称一种实体关系抽取方法 (57)摘要本发明公开了一种实体关系抽取方法，方法包括：基于预设方法获取人物属性定义，其中，所述预设方法包括：全文检索以及性别预测中的一种或组合，其中，所述人物属性定义包括：人物基础属性和社会属性及人物社会关系属性；利用人物属性定义进行文本中实体预标注；基于标注后的实体，构建对应的三元组，将三元组的集合作为数据库。权利要求书1页说明书8页附图4页 CN 114610819 B 2022.10.11 CN 114610819 B 1.一种实体关系抽取方法，其特征在于，所述方法包括：随机初始化初始模型中的一个embedding层矩阵，其中，所述初始模型为串联的DGCNN 模型和Attention模型；将长文本中人物属性关系抽取数据库对应的文本进行分词通过Word2Vec得到词向量，再使用变换矩阵将词向量转换为与字向量相同维度的向量，其中，长文本中人物属性关系抽取数据库的建立过程包括：基于预设方法获取人物属性定义，其中，所述预设方法包括：全文检索以及性别预测中的一种或组合；所述人物属性定义包括：人物基础属性和社会属性及人物社会关系属性；利用人物属性定义进行文本中实体预标注，其中，实体包括：人物、物品、动物中的一种或组合；基于标注后的实体，构建对应的三元组，将三元组的集合作为数据库；采取词重复对齐字位置的方式将两者进行对位相加，得到相加结果；将相加结果输入到DGCN N模型中得到编码后的向量序列；将编码后的向量序列输入到第一Attention模型中，其中，第一Attention模型通过两个分类器输出结果，每一个分类器均包括两个卷积层和一个全连接层；当分类器识别出实体标签时，编码后的向量序列中对应于实体的序列片段的起止向量序列对位相加，将结果输入到相对位置的Embed ding层，得到嵌入结果；将编码后的向量序列输入到第二Attention模型中，将第二Attention模型的输出与所述嵌入结果叠加，将叠加后的结果作为编码后的向量序列，并返回执行将编码后的向量序列输入到第一A ttention模型中的步骤，直至模型收敛，得到训练后的目标模型；使用目标模型进行实体关系抽取。 2.根据权利要求1所述的一种实体关系抽取方法，其特征在于，所述基于预设方法获取人物属性定义，包括：根据第一实体与第二实体之间关系的类别，确定该类别是否为目标类别；若是，根据所述目标类别进行语义的反向推理，得到推理结果，使用推理结果作为第一实体与第二实体之间的准确关系。 3.根据权利要求1所述的一种实体关系抽取方法，其特征在于，所述基于预设方法获取人物属性定义，包括：基于性别与实体之间关系的关联性，进行实体标签的生成，并使用生成的实体标签标注文本中的实体。 4.根据权利要求1所述的一种实体关系抽取方法，其特征在于，所述基于预设方法获取人物属性定义，包括：基于实体之间的语义范围的关系将无法被具体分类的人物属性定义划分到语义范围大于所述无法被具体分类的人物属性定义的集合中。 5.根据权利要求1所述的一种实体关系抽取方法，其特征在于，基于预设方法获取人物属性定义，包括：在人物属性定义为人物社会属性时，获取所述人物社会属性对应的下位概念，基于所述下位概念与该人物之间的关联性进行人物社会属性的获取。权　利　要　求　书 1/1 页 2 CN 114610819 B 2一种实体关系抽取方法技术领域 [0001]本发明涉及信息挖掘技术领域，更具体涉及一种实体关系抽取方法。背景技术 [0002]在互联网技术高速发展时代，实体关系抽取作为开放域中大量无规则非结构型数据中文本挖掘和信息抽取的核心研究方向，一直是研究热点。实体关系抽取是将海量非结构化数据抽取或转化为结构化的数据，为构建知识图谱、自动问答、机器翻译、大规模获取文本摘要等提供数据样本。 [0003]目前，基于深度学习的实体关系抽取方法已经逐渐超越经典的基于特征和基于核函数的方法，基于深度学习的实体关系抽取主要分为有监督和远程监督两类，其中，有监督实体关系抽取方法主要包括流水线方法和联合学习方法。虽然，基于深度学习的方法能避免经典方面中人工特征选择中的误差积累问题；但是，基于流水线的方法是对实体识别模块后做关系分类预测，一方面实体识别的错误会继续传播到关系分类中造成错误传播，另一方面基于流水线的方法忽视了两个子任务之间的关系丢失信息影响模型的效果，相比而言，联合学习方法通过增加参数共享编码层来对两个子任务进行联合训练减少了错误传播和实现了实体和关系间信息交互，但由于实体识别子任务在关系抽取子任务之前，仍然会抽取出没有关系的实体造成模型的复杂性。因此，现有技术中实体关系抽取准确率较低的技术问题。发明内容 [0004]本发明所要解决的技术问题在于提供了一种实体关系抽取方法，以提高实体关系抽取的准确率。 [0005]本发明是通过以下技术方案解决上述技术问题的： [0006]本发明提供了一种长文本中人物属性关系抽取数据库的建立方法，所述方法包括： [0007]基于预设方法获取人物属性定义，其中，所述人物属性定义包括：人物基础属性和社会属性及人物社会关系属性； [0008]利用人物属性定义进行文本中实体预标注； [0009]基于标注后的实体，构建对应的三元组，将三元组的集合作为数据库。 [0010]可选的，所述基于预设方法获取人物属性定义，包括： [0011]根据第一实体与第二实体之间关系的类别，确定该类别是否为目标类别； [0012]若是，根据所述目标类别进行语义的反向推理，得到推理结果，使用推理结果作为第一实体与第二实体之间的准确关系。 [0013]可选的，所述基于预设方法获取人物属性定义，包括： [0014]基于性别与实体之间关系的关联性，进行实体标签的生成，并使用生成的实体标签标注文本中的实体。说　明　书 1/8 页 3 CN 114610819 B 3

专利 一种实体关系抽取方法

专利一种实体关系抽取方法