说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210485506.0 (22)申请日 2022.05.06 (71)申请人 神州医疗科技股份有限公司 地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人 刘硕 杨雅婷 宋佳祥 朱宁  白焜太 许娟 史文钊  (74)专利代理 机构 北京星通盈泰知识产权代理 有限公司 1 1952 专利代理师 夏晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01)G06F 40/205(2020.01) G06F 40/295(2020.01) G16H 10/60(2018.01) (54)发明名称 一种自动判断并融合知识图谱的关系抽取 方法及系统 (57)摘要 本发明公开了一种自动判 断并融合知识图 谱的关系抽取方法及系统, 在医学范围内预先建 立了小范围的原始数据库, 基于此原始数据库并 结合医学知识 图谱充分获取了待分类的实体的 更多特征信息, 如实体、 句子、 属性节点以及上下 文信息, 提高了模型可获得的信息量, 提高关系 分类任务的准确率, 对不同类型的实体数据进行 数据增强和调整超参数, 进一步提高了关系分类 抽取的准确率; 将实体、 句子、 属性节点以及上下 文信息等特征信息融合到关系抽取的任务中并 结合注意力机制的计算方式对相关性属性节点 进行了筛选, 从而能根据节点的关键信息以及当 前任务的重要程度做出筛选, 考虑到不同语境下 的节点所代表的含义, 优化了目前构建医学术语 集的准确性。 权利要求书3页 说明书9页 附图4页 CN 114925212 A 2022.08.19 CN 114925212 A 1.一种自动判断并融合知识图谱的关系抽取 方法, 其特 征在于: 包括以下步骤: 获取原始数据以及现有的医学知识图谱; 根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、 实 体对应的属性节点以及实体对应的原句; 将所述实体、 属性节点以及原句进行 预处理后进行向量映射, 得到嵌入表示向量; 对所述嵌入表示向量进行时序特 征提取和拼接处 理, 得到第一 拼接向量; 将所述第一拼接向量进行图网络学习后, 得到第一结果向量, 将所述第一结果向量经 过池化处 理, 得到第二 拼接向量; 根据所述第 一结果向量构建注意力得分机制, 利用所述注意力得分机制对所述嵌入表 示向量进行属性节点筛 选, 基于筛选结果构建上 下文信息; 对所述上下文信 息中的向量进行拼接处理后, 基于处理后的向量与 所述第二拼接向量 进行关系分类, 得到医学实体知识对应的关系抽取 结果。 2.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述获取原 始数据以及现有的医学知识图谱, 包括: 利用爬虫技术从现有医学开放术语标准集、 医学典籍和临床医学记录中获取所述原始 数据。 3.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述将所述 实体、 属性节点以及原句进 行预处理后进 行向量映射, 得到嵌入表 示向量, 预 处 理包括: 将所述实体、 属性节点以及原句作为数据集, 将所述数据集划分为训练集和测试集, 将 训练集文件中的数据转 化为数字id, 对所述数字id进行映射; 将转化为数字id映射后的数据输入预构建的ber t模型中, 得到嵌入表示向量。 4.根据权利要求3所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述将转化为数字id映射后的数据输入预构建 的bert模型中, 得到嵌入表示向量, 预构建 的bert模型包括: embed ding层、 多头注意力机制层以及前向计算层; 所述embedding层, 用于通过embedding权重矩阵和输入数据映射的数字id进行矩阵相 称, 得出embedding词向量作为输入数据的embed ding矩阵表示; 所述多头注意力机制层, 用于将所述embedding层输出的特征向量通过三个线性层进 行矩阵特 征提取, 经 过矩阵乘法计算得 出每个输入数据融合了注意力 信息的向量表示; 所述前向计算层, 用于将多头注意力机制层每个输入经过两层线性层, 并经过激活层 激活后输出最终的嵌入表示向量。 5.根据权利要求4所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述对所述嵌入表示向量进行时序特 征提取和拼接处 理, 得到第一 拼接向量, 包括: 将所述嵌入表示向量按照正序和逆序分别输入Bi ‑lstm模型中的lstm计算单元, 得到 正向序列方向 向量和逆向序列方向 向量; 将所述正向序列方向 向量和逆向序列方向 向量进行拼接得到所述第一 拼接向量。 6.根据权利要求5所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述将所述第一拼接 向量进行图网络学习后, 得到第一结果向量, 将所述第一结果向量经 过池化处 理, 得到第二 拼接向量, 包括:权 利 要 求 书 1/3 页 2 CN 114925212 A 2将所述第一 拼接向量输入GCN网络进行图网络学习后, 输出第一结果向量; 通过池化层对所述第 一结果向量进行特征提取, 取出每个所述第 一结果向量最后维度 上的最大值; 将所有所述第一结果向量的最大值进行拼接, 输出第二 拼接向量。 7.根据权利要求6所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述根据所述第一结果向量构建注意力得分机制, 利用所述注意力得分机制对所述嵌入表 示向量进行属性节点筛 选, 基于筛选结果构建上 下文信息, 包括: 将所述第 一结果向量、 池化层卷积的参数、 拉普拉斯矩阵和对角矩阵代入激活函数中, 得到注意力得分参数; 将所述注意力得分参数 经过softmax函数计算, 得到注意力影响分数; 计算所述注意力影响分数, 得到属性节点筛 选阈值; 利用所述属性节点筛选阈值对所述嵌入表示向量进行属性节点筛选, 过滤注意力 影响 分数低于所述属性节点筛 选阈值的属性节点, 根据过 滤后的结果构建上 下文信息 。 8.根据权利要求7所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 对所述上 下文信息中的向量进行拼接处 理, 包括: 提取所述上下文信 息中的实体向量和语句代表向量, 所述实体向量包括头实体向量和 尾实体向量; 将所述语句代表向量、 头实体向量和尾实体向量分别进行拼接处理得到语句拼接向 量、 头实体拼接向量和尾实体拼接向量。 9.根据权利要求8所述的一种自动判断并融合知识图谱的关系抽取方法, 其特征在于: 所述对所述上下文信息中的向量进行拼接处理后, 基于处理后的向量与所述第二拼接向量 进行关系分类, 得到医学实体知识对应的关系抽取 结果, 包括: 将所述第二拼接向量、 语句拼接向量、 头实体拼接向量和尾实体拼接向量进行拼接处 理后输入多层感知机 MLP进行关系分类, 得到第一关系分类结果; 通过softmax函数对所述第一关系分类结果进行优化, 得到所述医学实体知识的关系 抽取结果。 10.一种自动判断并融合知识图谱的关系抽取系统, 其特征在于: 包括获取模块、 检索 处理模块、 向量映射模块、 第一拼接 向量获取模块、 第二拼接向量获取模块、 属性节点筛选 模块和关系抽取模块; 所述获取模块, 获取原 始数据以及现有的医学知识图谱; 所述检索处理模块, 用于根据 所述原始数据在所述医学知识图谱中进行检索得到 医学 实体知识对应的实体、 实体对应的属性节点以及实体对应的原句; 所述向量映射模块, 用于将所述实体、 属性节点以及原句进行预处理后进行向量映射, 得到嵌入表示向量; 所述第一拼接向量获取模块, 用于对所述嵌入表示向量进行时序特征提取和拼接处 理, 得到第一 拼接向量; 所述第二拼接向量获取模块, 用于将所述第一拼接向量进行图网络学习后, 得到第一 结果向量, 将所述第一结果向量经 过池化处 理, 得到第二 拼接向量; 所述属性节点筛选模块, 用于根据所述第一结果向量构建注意力得分机制, 利用所述权 利 要 求 书 2/3 页 3 CN 114925212 A 3

.PDF文档 专利 一种自动判断并融合知识图谱的关系抽取方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自动判断并融合知识图谱的关系抽取方法及系统 第 1 页 专利 一种自动判断并融合知识图谱的关系抽取方法及系统 第 2 页 专利 一种自动判断并融合知识图谱的关系抽取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。