专利一种自动判断并融合知识图谱的关系抽取方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210485506.0 (22)申请日 2022.05.06 (71)申请人神州医疗科技股份有限公司地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人刘硕　杨雅婷　宋佳祥　朱宁　白焜太　许娟　史文钊　 (74)专利代理机构北京星通盈泰知识产权代理有限公司 1 1952 专利代理师夏晶 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 16/951(2019.01)G06F 40/205(2020.01) G06F 40/295(2020.01) G16H 10/60(2018.01) (54)发明名称一种自动判断并融合知识图谱的关系抽取方法及系统 (57)摘要本发明公开了一种自动判断并融合知识图谱的关系抽取方法及系统，在医学范围内预先建立了小范围的原始数据库，基于此原始数据库并结合医学知识图谱充分获取了待分类的实体的更多特征信息，如实体、句子、属性节点以及上下文信息，提高了模型可获得的信息量，提高关系分类任务的准确率，对不同类型的实体数据进行数据增强和调整超参数，进一步提高了关系分类抽取的准确率；将实体、句子、属性节点以及上下文信息等特征信息融合到关系抽取的任务中并结合注意力机制的计算方式对相关性属性节点进行了筛选，从而能根据节点的关键信息以及当前任务的重要程度做出筛选，考虑到不同语境下的节点所代表的含义，优化了目前构建医学术语集的准确性。权利要求书3页说明书9页附图4页 CN 114925212 A 2022.08.19 CN 114925212 A 1.一种自动判断并融合知识图谱的关系抽取方法，其特征在于：包括以下步骤：获取原始数据以及现有的医学知识图谱；根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句；将所述实体、属性节点以及原句进行预处理后进行向量映射，得到嵌入表示向量；对所述嵌入表示向量进行时序特征提取和拼接处理，得到第一拼接向量；将所述第一拼接向量进行图网络学习后，得到第一结果向量，将所述第一结果向量经过池化处理，得到第二拼接向量；根据所述第一结果向量构建注意力得分机制，利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选，基于筛选结果构建上下文信息；对所述上下文信息中的向量进行拼接处理后，基于处理后的向量与所述第二拼接向量进行关系分类，得到医学实体知识对应的关系抽取结果。 2.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述获取原始数据以及现有的医学知识图谱，包括：利用爬虫技术从现有医学开放术语标准集、医学典籍和临床医学记录中获取所述原始数据。 3.根据权利要求1所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述将所述实体、属性节点以及原句进行预处理后进行向量映射，得到嵌入表示向量，预处理包括：将所述实体、属性节点以及原句作为数据集，将所述数据集划分为训练集和测试集，将训练集文件中的数据转化为数字id，对所述数字id进行映射；将转化为数字id映射后的数据输入预构建的ber t模型中，得到嵌入表示向量。 4.根据权利要求3所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述将转化为数字id映射后的数据输入预构建的bert模型中，得到嵌入表示向量，预构建的bert模型包括： embed ding层、多头注意力机制层以及前向计算层；所述embedding层，用于通过embedding权重矩阵和输入数据映射的数字id进行矩阵相称，得出embedding词向量作为输入数据的embed ding矩阵表示；所述多头注意力机制层，用于将所述embedding层输出的特征向量通过三个线性层进行矩阵特征提取，经过矩阵乘法计算得出每个输入数据融合了注意力信息的向量表示；所述前向计算层，用于将多头注意力机制层每个输入经过两层线性层，并经过激活层激活后输出最终的嵌入表示向量。 5.根据权利要求4所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述对所述嵌入表示向量进行时序特征提取和拼接处理，得到第一拼接向量，包括：将所述嵌入表示向量按照正序和逆序分别输入Bi ‑lstm模型中的lstm计算单元，得到正向序列方向向量和逆向序列方向向量；将所述正向序列方向向量和逆向序列方向向量进行拼接得到所述第一拼接向量。 6.根据权利要求5所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述将所述第一拼接向量进行图网络学习后，得到第一结果向量，将所述第一结果向量经过池化处理，得到第二拼接向量，包括：权　利　要　求　书 1/3 页 2 CN 114925212 A 2将所述第一拼接向量输入GCN网络进行图网络学习后，输出第一结果向量；通过池化层对所述第一结果向量进行特征提取，取出每个所述第一结果向量最后维度上的最大值；将所有所述第一结果向量的最大值进行拼接，输出第二拼接向量。 7.根据权利要求6所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述根据所述第一结果向量构建注意力得分机制，利用所述注意力得分机制对所述嵌入表示向量进行属性节点筛选，基于筛选结果构建上下文信息，包括：将所述第一结果向量、池化层卷积的参数、拉普拉斯矩阵和对角矩阵代入激活函数中，得到注意力得分参数；将所述注意力得分参数经过softmax函数计算，得到注意力影响分数；计算所述注意力影响分数，得到属性节点筛选阈值；利用所述属性节点筛选阈值对所述嵌入表示向量进行属性节点筛选，过滤注意力影响分数低于所述属性节点筛选阈值的属性节点，根据过滤后的结果构建上下文信息。 8.根据权利要求7所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：对所述上下文信息中的向量进行拼接处理，包括：提取所述上下文信息中的实体向量和语句代表向量，所述实体向量包括头实体向量和尾实体向量；将所述语句代表向量、头实体向量和尾实体向量分别进行拼接处理得到语句拼接向量、头实体拼接向量和尾实体拼接向量。 9.根据权利要求8所述的一种自动判断并融合知识图谱的关系抽取方法，其特征在于：所述对所述上下文信息中的向量进行拼接处理后，基于处理后的向量与所述第二拼接向量进行关系分类，得到医学实体知识对应的关系抽取结果，包括：将所述第二拼接向量、语句拼接向量、头实体拼接向量和尾实体拼接向量进行拼接处理后输入多层感知机 MLP进行关系分类，得到第一关系分类结果；通过softmax函数对所述第一关系分类结果进行优化，得到所述医学实体知识的关系抽取结果。 10.一种自动判断并融合知识图谱的关系抽取系统，其特征在于：包括获取模块、检索处理模块、向量映射模块、第一拼接向量获取模块、第二拼接向量获取模块、属性节点筛选模块和关系抽取模块；所述获取模块，获取原始数据以及现有的医学知识图谱；所述检索处理模块，用于根据所述原始数据在所述医学知识图谱中进行检索得到医学实体知识对应的实体、实体对应的属性节点以及实体对应的原句；所述向量映射模块，用于将所述实体、属性节点以及原句进行预处理后进行向量映射，得到嵌入表示向量；所述第一拼接向量获取模块，用于对所述嵌入表示向量进行时序特征提取和拼接处理，得到第一拼接向量；所述第二拼接向量获取模块，用于将所述第一拼接向量进行图网络学习后，得到第一结果向量，将所述第一结果向量经过池化处理，得到第二拼接向量；所述属性节点筛选模块，用于根据所述第一结果向量构建注意力得分机制，利用所述权　利　要　求　书 2/3 页 3 CN 114925212 A 3

专利 一种自动判断并融合知识图谱的关系抽取方法及系统

专利一种自动判断并融合知识图谱的关系抽取方法及系统