说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210264276.5 (22)申请日 2022.03.17 (65)同一申请的已公布的文献号 申请公布号 CN 114610819 A (43)申请公布日 2022.06.10 (73)专利权人 中科世通亨奇 (北京) 科技有限公 司 地址 100083 北京市海淀区学院路甲5号2 幢平房北1 102 (72)发明人 喻野 黄宇  (74)专利代理 机构 广州鼎贤知识产权代理有限 公司 44502 专利代理师 刘莉梅 (51)Int.Cl. G06F 16/28(2019.01)G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/04(2006.01) (56)对比文件 CN 113553440 A,2021.10.26 CN 112487807 A,2021.0 3.12 CN 112183465 A,2021.01.0 5 审查员 陈雅萍 (54)发明名称 一种实体关系抽取方法 (57)摘要 本发明公开了一种实体 关系抽取方法, 方法 包括: 基于 预设方法获取人物属性定义, 其中, 所 述预设方法包括: 全文检索以及性别预测中的一 种或组合, 其中, 所述人物属性定义包括: 人物基 础属性和社会属性及人物社会关系属性; 利用人 物属性定义进行文本中实体预标注; 基于标注后 的实体, 构建对应的三元组, 将三元组的集合作 为数据库。 权利要求书1页 说明书8页 附图4页 CN 114610819 B 2022.10.11 CN 114610819 B 1.一种实体关系抽取 方法, 其特 征在于, 所述方法包括: 随机初始化初始模型中的一个embedding层矩阵, 其中, 所述初始模型为串联的DGCNN 模型和Attention模型; 将长文本中人物属性关系抽取数据库对应的文本进行分词通过Word2Vec得到词向量, 再使用变换矩阵将词向量转换为与字 向量相同维度的向量, 其中, 长文本中人物属 性关系 抽取数据库的建立过程包括: 基于预设方法获取人物属 性定义, 其中, 所述预设方法包括: 全文检索以及性别预测中的一种或组合; 所述人物属 性定义包括: 人物基础属 性和社会属 性及人物社会关系属性; 利用人物属性定义进 行文本中实体预标注, 其中, 实体包括: 人物、 物品、 动物中的一种或组合; 基于标注后的实体, 构建对应的三元组, 将三元组的集合作为 数据库; 采取词重复对齐字位置的方式将两者进行对位相加, 得到相加结果; 将相加结果输入到DGCN N模型中得到编码后的向量序列; 将编码后的向量序列输入到第一Attention模型中, 其中, 第一Attention模型通过两 个分类器输出结果, 每一个分类 器均包括两个卷积层和一个全连接层; 当分类器识别出实体标签时, 编码后的向量序列中对应于实体的序列片段的起止向量 序列对位相加, 将结果输入到相对位置的Embed ding层, 得到嵌入结果; 将编码后的向量序列输入到第二Attention模型中, 将第二Attention模型的输出与所 述嵌入结果叠加, 将叠加后的结果作为编码后的向量序列, 并返回执行将编码后的向量序 列输入到第一A ttention模型中的步骤, 直至模型收敛, 得到训练后的目标模型; 使用目标模型进行实体关系抽取。 2.根据权利要求1所述的一种实体关系抽取方法, 其特征在于, 所述基于预设方法获取 人物属性定义, 包括: 根据第一实体与第二实体之间关系的类别, 确定该类别是否为目标类别; 若是, 根据所述目标类别进行语义的反向推理, 得到推理结果, 使用推理结果作为第一 实体与第二实体之间的准确关系。 3.根据权利要求1所述的一种实体关系抽取方法, 其特征在于, 所述基于预设方法获取 人物属性定义, 包括: 基于性别与实体之间关系的关联性, 进行实体标签的生成, 并使用生成的实体标签标 注文本中的实体。 4.根据权利要求1所述的一种实体关系抽取方法, 其特征在于, 所述基于预设方法获取 人物属性定义, 包括: 基于实体之间的语义范围的关系将无法被具体分类的人物属性定义划分到语义范围 大于所述无法被具体分类的人物属性定义的集 合中。 5.根据权利要求1所述的一种实体关系抽取方法, 其特征在于, 基于预设方法获取人物 属性定义, 包括: 在人物属性定义为人物社会属性时, 获取所述人物社会属性对应的下位概念, 基于所 述下位概念与该 人物之间的关联性进行 人物社会属性的获取。权 利 要 求 书 1/1 页 2 CN 114610819 B 2一种实体关系抽取方 法 技术领域 [0001]本发明涉及信息挖掘技 术领域, 更 具体涉及一种实体关系抽取 方法。 背景技术 [0002]在互联网技术高速发展时代, 实体关系抽取作为开放域中大量无规则非结构型数 据中文本挖掘和信息抽取 的核心研究方向, 一直是研究热点。 实体关系抽取是将海量非结 构化数据抽取或转化为结构化的数据, 为构建知识图谱、 自动问答、 机器翻译、 大规模获取 文本摘要等 提供数据样本 。 [0003]目前, 基于深度学习的实体关系抽取方法已经逐渐超越经典的基于特征和基于核 函数的方法, 基于深度学习的实体 关系抽取主要分为有监督和远程监督两类, 其中, 有监督 实体关系抽取方法主要包括流水线方法和联合学习方法。 虽然, 基于深度学习的方法能避 免经典方面中人工特征选择中的误差积累问题; 但是, 基于流水线的方法是对实体识别模 块后做关系分类预测, 一方面实体识别的错误会继续传播到关系分类中造成错误传播, 另 一方面基于流水线的方法忽视了两个子任务之 间的关系丢失信息影响模型的效果, 相比而 言, 联合学习方法通过增加参数共享编 码层来对两个子任务进行联合训练减少了错误传播 和实现了实体和关系间信息交互, 但由于实体识别子任务在关系抽取子任务之前, 仍然会 抽取出没有关系的实体造成模型 的复杂性。 因此, 现有技术中实体关系抽取准确 率较低的 技术问题。 发明内容 [0004]本发明所要解决的技术问题在于提供了一种实体关系抽取方法, 以提高实体关系 抽取的准确率。 [0005]本发明是通过以下技 术方案解决上述 技术问题的: [0006]本发明提供了一种长文本中人物属性关系抽取数据库的建立方法, 所述方法包 括: [0007]基于预设方法获取人物属性定义, 其中, 所述人物属性定义包括: 人物基础属性和 社会属性及人物社会关系属性; [0008]利用人物属性定义进行文本中实体预 标注; [0009]基于标注后的实体, 构建对应的三元组, 将三元组的集 合作为数据库。 [0010]可选的, 所述基于预设方法获取 人物属性定义, 包括: [0011]根据第一实体与第二实体之间关系的类别, 确定该类别是否为目标类别; [0012]若是, 根据所述目标类别进行语义的反向推理, 得到推理结果, 使用推 理结果作为 第一实体与第二实体之间的准确关系。 [0013]可选的, 所述基于预设方法获取 人物属性定义, 包括: [0014]基于性别与实体之间关系的关联性, 进行实体标签的生成, 并使用生成的实体标 签标注文本中的实体。说 明 书 1/8 页 3 CN 114610819 B 3

.PDF文档 专利 一种实体关系抽取方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体关系抽取方法 第 1 页 专利 一种实体关系抽取方法 第 2 页 专利 一种实体关系抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。