说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210794586.8 (22)申请日 2022.07.07 (71)申请人 南方电网大 数据服务有限公司 地址 510800 广东省广州市花都区新 华街 红珠路5-1 (72)发明人 赵永国 杨荣霞 曹熙 张仙梅  曾祥清 黎名航  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 李志健 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/295(2020.01) G06F 40/289(2020.01) G06F 40/216(2020.01)G06F 40/284(2020.01) G06F 16/35(2019.01) G06F 16/36(2019.01) (54)发明名称 一种从电力领域的文本中抽取实体关系的 方法 (57)摘要 本申请涉及一种从电力领域的文本中抽取 实体关系的方法。 方法包括: 获取电力领域对应 的目标文本, 并基于目标文本进行与电力领域相 关的结构化 分析, 确定电力领域对应的非结构化 部分, 非结构化部分为目标文本中各标题下的文 本内容; 对非结构化部分对应的非结构化文本进 行标引, 并基于标引后的非结构化文本确定目标 文本中对应的独立的句子成分、 被单向依赖的句 子成分、 双向依赖的句子成分, 得到电力领域对 应的目标文本中的知识三元 组; 基于知识三元组 中的各核心动词进行实体关系的标定, 以对知识 三元组进行优化, 得到优化后的知识三元组对应 的电力领域实体 关系。 采用本方法能够提高了电 力领域实体关系的抽取质量和效率。 权利要求书2页 说明书11页 附图6页 CN 115017885 A 2022.09.06 CN 115017885 A 1.一种文本中抽取实体关系方法, 其特 征在于, 所述方法包括: 获取电力领域对应的目标文本, 并基于所述目标文本进行与 所述电力领域相关的结构 化分析, 确定所述电力领域对应的非结构化部分, 所述非结构化部分为所述 目标文本中各 标题下的文本内容; 对所述非结构化部分对应的非结构化文本进行标引, 并基于标引后的所述非结构化文 本确定所述 目标文本中对应的独立的句 子成分、 被单向依赖的句 子成分、 双向依赖的句 子 成分, 得到所述电力领域对应的目标文本中的知识三元组; 基于所述知识三元组中的各核心动词进行所述实体关系的标定, 以对所述知识三元组 进行优化, 得到优化后的所述知识三元组对应的电力领域实体关系。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述目标文本进行与 所述电力领 域相关的结构化分析, 确定所述电力领域对应的非结构化部分, 包括: 基于所述目标文本进行中文分词, 得到中文分词结果, 并对所述中文分词结果按照预 设的类簇进行归类, 得到中文分词归类结果; 基于所述中文分词归类结果, 确定所述电力领域对应的非结构化部分; 和/或, 基于所述中文分词归类结果, 确定所述电力领域对应的结构化部分。 3.根据权利要求2所述的方法, 其特征在于, 所述对所述中文分词结果按照预设的类簇 进行归类, 得到中文分词归类结果, 包括: 对所述中文分词结果使用词频 ‑逆向文件频率加权算法进行计算, 得到中文分词计算 结果, 并根据所述中文分词计算结果建立文档 ‑中文分词矩阵; 基于文本聚类算法, 对所述文档 ‑中文分词矩阵进行降维处 理, 得到已聚类中文分词; 对所述已聚类中文分词按照所述预设的类簇进行归类, 得到所述中文分词归类结果。 4.根据权利要求2所述的方法, 其特征在于, 所述基于所述中文分词归类结果, 确定所 述电力领域对应的结构化部分之后, 还 包括: 对所述电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取, 并对所述标题内容之间具有逻辑关系对应的标题进行 标注。 5.根据权利要求1所述的方法, 其特征在于, 所述基于标引后的所述非结构化文本确定 所述目标文本中对应的独立的句子成分、 被单向依赖的句子成分、 双向依赖的句子成分, 得 到所述电力领域对应的目标文本中的知识三元组, 包括: 对基于标引后的所述非结构化文本中的独立的句子, 被单向依赖的句子, 具有双 向依 赖的句子进行分词以及词性分析, 得到句子分析 结果; 基于所述句子分析结果, 使用句法分析器构建与 所述句子分析结果对应的依存句法分 析图; 对所述依存句法分析图进行自然语言句法分析和语义角色标注, 得到所述电力领域对 应的目标文本中的知识三元组。 6.根据权利要求1所述的方法, 其特征在于, 所述对所述非结构化部分对应的非结构化 文本进行标引, 并基于标引后的所述 非结构化文本确定所述目标文本中对应的独立的句子 成分、 被单向依赖的句子成分、 双向依赖的句子成分, 得到所述电力领域对应的目标文本中 的知识三元组之后, 还 包括:权 利 要 求 书 1/2 页 2 CN 115017885 A 2对所述非结构化部分对应的非结构化文本的补充内容进行判断; 若所述非结构化文本的补充内容为名词或者短语, 则将所述名词或者短语作为补充知 识填充至所述知识三元组; 若所述非结构化文本的补充内容为句子, 则将所述句子进行关系抽取后加入至所述知 识三元组; 若所述非结构化文本的补充内容为标点符号, 则不添加所述标点符号至所述知识三元 组。 7.一种抽取实体关系装置, 其特 征在于, 所述装置包括: 非结构化部分确定模块, 用于获取电力领域对应的目标文本, 并基于所述目标文本进 行与所述电力领域相关的结构化分析, 确定所述电力领域对应的非结构化部分, 所述非结 构化部分为所述目标文本中各 标题下的文本内容; 知识三元组得到模块, 用于对所述非结构化部分对应的非结构化文本进行标引, 并基 于标引后的所述 非结构化文本确定所述目标文本中对应的独立的句子成分、 被单向依赖的 句子成分、 双向依赖的句子成分, 得到所述电力领域对应的目标文本中的知识三元组; 电力领域实体关系得到模块, 用于基于所述知识三元组中的各核心动词进行所述实体 关系的标定, 以对所述知识三元组进行优化, 得到优化后的所述知识三元组对应的电力领 域实体关系。 8.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述的方法的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115017885 A 3

.PDF文档 专利 一种从电力领域的文本中抽取实体关系的方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种从电力领域的文本中抽取实体关系的方法 第 1 页 专利 一种从电力领域的文本中抽取实体关系的方法 第 2 页 专利 一种从电力领域的文本中抽取实体关系的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。