专利一种面向辅助诊断的知识图谱构建方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210765651.4 (22)申请日 2022.07.01 (71)申请人浙江华巽科技有限公司地址 317600 浙江省台州市玉环市龙溪镇小山外工业园区 (72)发明人杨鹏　王超余　冷俊成　胡皓楠　解然　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师叶涓涓 (51)Int.Cl. G06F 16/36(2019.01) G16H 50/20(2018.01) (54)发明名称一种面向辅助诊断的知识图谱构建方法 (57)摘要本发明公开了一种面向辅助诊断的知识图谱构建方法，该方法首先提出基于Multi ‑ Attention结构的知识抽取算法以及基于包装器的知识抽取方法，对医学网站公开数据与电子病历数据进行高效准确的抽取工作，然后提出针对多源异构数据特点的多方案知识融合策略，解决了知识冗余、存在歧义问题，最后给出针对多源异构数据特点的知识表示与优化方案，完成面向心血管疾病辅助诊断的知识图谱构建。本发明方法聚焦疾病数据的多源异构特性，针对的提出了多方案知识抽取、知识融合、优化策略，能够挖掘更深层的疾病数据，准确地构建出更加适用于疾病辅助诊断的知识图谱。权利要求书2页说明书8页附图2页 CN 115269865 A 2022.11.01 CN 115269865 A 1.一种面向辅助诊断的知识图谱构建方法，其特征在于，包括以下步骤：步骤1，构建心血管疾病语料库，使用基于包装器的知识抽取方法对专业医学网站公开数据进行抽取工作，构建原始语料库；步骤2，使用基于Multi ‑Attention结构的知识抽取算法对非结构化医疗记录数据进行抽取工作，补充疾病语料库；步骤3，使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实体消歧、实体链接、知识合并；通过基于聚类算法的实体消歧、基于Pandans的知识合并和基于Fusion相似度的实体链接解决知识冗余、歧义问题；步骤4，进一步进行数据优化，通过知识表示与图数据库存储完成面向心血管疾病辅助诊断的知识图谱构建工作。 2.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤1 具体包括如下步骤：利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取；包装器是一种基于规则的文本信息抽取模型，包括：规则库、规则执行模块和信息转换模块；爬取工作时构造user ‑agent集合，在每次请求时随机选一个user ‑agent；并在每次抓取后用 time.sle ep暂停几秒再进行下次爬虫，最后将抽取的信息保存为csv文件供后续处理。 3.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤2 具体包括如下步骤：利用基于多头注意力结构的BERT ‑Bi‑LSTM‑CRF模型完成面向电子病历等医疗记录非结构化数据的知识抽取；模型分为三层： BERT预训练模型、 Bi‑LSTM语义融合层和CRF最优化输出层；标注好的数据输入模型后首先经过第一层BERT预训练模型，结合多头注意力模型实现文本向量化，在抽取过程中同时关注不同位置来输入不同表示子空间的信息，而且多个注意力层并行计算；之后将文本的向量表示序列输入第二层Bi ‑LSTM语义融合层，进行进一步的语义编码获得全局的序列特征；最后数据进入第三层CRF最优化输出层，使得输出不仅是概率最大的也是最符合语义的标签序列。 4.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤3 具体包括如下步骤：采用了改进的K ‑Means算法，自动完成聚类类别个数的确定工作，进行聚类消歧；通过 Pandas将重叠的结构化数据合并到现有的知识库；采用Fusion相似度的计算方法将从非结构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接。 5.根据权利要求3所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述改进的 K‑Means算法流程如下：要处理的文件n初始化簇数， k为患有不同疾病D1、 D2的收集文件，为的整数部分；根据下式选择一个初始聚合点将聚合点S存放在集合中，将索引和最小距离存放在集合S'中；计算两个聚类点之间最小距离的差值，存入集合S ”；从寻找距离差最大的S ”点开始，将之前的聚合点保存到集合S权　利　要　求　书 1/2 页 2 CN 115269865 A 2中；从这个聚类中心k开始，应用K ‑means聚类算法得到聚类结果；能够自动获得k个聚类中心，并得到最终的文档集，完成消歧任务。 6.根据权利要求1所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述步骤4 具体包括如下步骤：采用基于向量方差算法通过去除与域无关的节点和它们包含的关系完成对知识图谱的进一步优化，通过领域专家进行补充和修正来完成知识表示，使用Neo4j图数据库对知识图谱进行可视化储存。 7.根据权利要求6所述的面向辅助诊断的知识图谱构建方法，其特征在于，所述向量方差算法包括如下流程：将关系集视为有向图，其中Si是包含在fj中的节点， n是Si中链接的数量， ek表示从Si到 fj的路径上的边，其权重为w(ek)， E{e1,e2,…en}表示从节点Si到fj的路径集， P{p1,p2,…pm} 表示从节点Si到fj的整个路径；使用以下公式计算节点Si到fj的隶属度：并通过设置阈值移除与域无关的节点及其包含的关系。权　利　要　求　书 2/2 页 3 CN 115269865 A 3

专利 一种面向辅助诊断的知识图谱构建方法

专利一种面向辅助诊断的知识图谱构建方法