说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210765651.4 (22)申请日 2022.07.01 (71)申请人 浙江华巽科技有限公司 地址 317600 浙江省台州市玉环市龙溪镇 小山外工业园区 (72)发明人 杨鹏 王超余 冷俊成 胡皓楠  解然  (74)专利代理 机构 南京众联专利代理有限公司 32206 专利代理师 叶涓涓 (51)Int.Cl. G06F 16/36(2019.01) G16H 50/20(2018.01) (54)发明名称 一种面向辅助诊断的知识图谱构建方法 (57)摘要 本发明公开了一种面向辅助诊断的知识图 谱构建方法, 该方法首先提出基于Multi ‑ Attention结构的知 识抽取算法以及基于包装器 的知识抽取方法, 对医学网站公开数据与电子病 历数据进行高效准确的抽取工作, 然后提出针对 多源异构数据特点的多 方案知识融合策略, 解决 了知识冗余、 存在歧义问题, 最后给出针对多源 异构数据特点的知识表示与优化方案, 完成面向 心血管疾病辅助诊断的知识图谱构建。 本发明方 法聚焦疾病数据的多源异构特性, 针对的提出了 多方案知识抽取、 知 识融合、 优化策略, 能够挖掘 更深层的疾病数据, 准确地构建出更加适用于疾 病辅助诊断的知识图谱。 权利要求书2页 说明书8页 附图2页 CN 115269865 A 2022.11.01 CN 115269865 A 1.一种面向辅助诊断的知识图谱构建方法, 其特 征在于, 包括以下步骤: 步骤1, 构建心血管疾病语料库, 使用基于包装器的知识抽取方法对专业医学网站公开 数据进行抽取工作, 构建原 始语料库; 步骤2, 使用基于Multi ‑Attention结构的知识抽取算法对非结构化 医疗记录数据进行 抽取工作, 补充疾病语料库; 步骤3, 使用针对多源异构数据特点的多方案知识融合策略对抽取的数据信息进行实 体消歧、 实体链接、 知识 合并; 通过基于聚类算法的实体消歧、 基于Pandans的知识合并和基 于Fusion相似度的实体链接解决知识冗余、 歧义问题; 步骤4, 进一步进行数据优化, 通过知识表示与图数据库存储完成面向心血管疾病辅助 诊断的知识图谱构建工作。 2.根据权利要求1所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述步骤1 具体包括如下步骤: 利用基于包装器的知识抽取完成面向专业医学网站半结构化数据的知识抽取; 包装器 是一种基于规则的文本信息抽取模型, 包括: 规则库、 规则执行模块和信息转换模块; 爬取 工作时构造user ‑agent集合, 在每次请求时随机选一个user ‑agent; 并在每次抓取后用 time.sle ep暂停几秒再进行 下次爬虫, 最后将抽取的信息保存为csv文件供后续处 理。 3.根据权利要求1所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述步骤2 具体包括如下步骤: 利用基于多头注意力结构的BERT ‑Bi‑LSTM‑CRF模型完成面向电子病历等医疗记录非 结构化数据的知识抽取; 模 型分为三层: BERT预训练模 型、 Bi‑LSTM语义融合层和CRF最优化 输出层; 标注好的数据输入模型后首先经过第一层BERT预训练模型, 结合多头注意力模型 实现文本 向量化, 在抽取过程中同时关注不同位置来输入不同表示子空间的信息, 而且多 个注意力层并行计算; 之后将文本的向量表示序列输入第二层Bi ‑LSTM语义融合层, 进 行进 一步的语义编 码获得全局的序列特征; 最后数据进入第三层CRF最优化输出层, 使得输出不 仅是概率最大的也是最符合语义的标签序列。 4.根据权利要求1所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述步骤3 具体包括如下步骤: 采用了改进的K ‑Means算法, 自动完成聚类类别个数的确定工作, 进行聚类消歧; 通过 Pandas将 重叠的结构化数据合并到 现有的知识库; 采用Fusion相似度的计算方法将从非结 构化数据或半结构化数据中提取的实体对象与知识库中相应正确的实体对象进行链接 。 5.根据权利要求3所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述改进的 K‑Means算法流 程如下: 要处理的文件n初始化簇数, k为患有不同疾病D1、 D2的收集文件, 为 的整数部分; 根 据下式选择一个初始聚合 点 将聚合点S存放在集合中, 将索引和最小距离存放在集合S'中; 计算两个聚类点之间最 小距离的差值, 存入集合S ”; 从寻找距离差最大的S ”点开始, 将之前的聚合点保存到集合S权 利 要 求 书 1/2 页 2 CN 115269865 A 2中; 从这个聚类中心k开始, 应用K ‑means聚类算法得到聚类结果; 能够自动获得k个聚类中 心, 并得到最终的文档集, 完成消歧任务。 6.根据权利要求1所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述步骤4 具体包括如下步骤: 采用基于向量方差算法通过去除与域无关的节点和它们包含的关系完成对知识图谱 的进一步优化, 通过领域专家进 行补充和修正来完成知识表 示, 使用Neo4j图数据库对知识 图谱进行 可视化储 存。 7.根据权利要求6所述的面向辅助诊断的知识图谱构建方法, 其特征在于, 所述向量方 差算法包括如下流 程: 将关系集视为有向图, 其中Si是包含在fj中的节点, n是Si中链接的数量, ek表示从Si到 fj的路径上的边, 其权重为w(ek), E{e1,e2,…en}表示从节点Si到fj的路径集, P{p1,p2,…pm} 表示从节点Si到fj的整个路径; 使用以下公式计算节点Si到fj的隶属度: 并通过设置阈值移除与域无关的节点及其包 含的关系。权 利 要 求 书 2/2 页 3 CN 115269865 A 3

.PDF文档 专利 一种面向辅助诊断的知识图谱构建方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向辅助诊断的知识图谱构建方法 第 1 页 专利 一种面向辅助诊断的知识图谱构建方法 第 2 页 专利 一种面向辅助诊断的知识图谱构建方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。