说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210875752.7 (22)申请日 2022.07.25 (71)申请人 北京大学 地址 100089 北京市海淀区颐和园路5号 (72)发明人 黄雨 朱话时 金芝 李航  岳伟华 陈冬雪 王雪萍  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 舒丁 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/33(2019.01) G06F 16/36(2019.01) G06N 5/02(2006.01) (54)发明名称 医学知识图谱的质控方法、 装置、 计算机设 备和存储介质 (57)摘要 本申请涉及一种医学知识图谱的质控 方法、 装置、 计算机设备、 存储介质和计算机程序产品。 所述方法包括: 将医学数据输入至目标医学命名 实体识别模 型, 得到医学数据对应的识别结果数 据集; 在识别结果数据集的容量大于预设第一阈 值的情况下, 对识别结果数据集中相同的识别数 据进行汇总, 得到目标数据; 在目标数据的计数 值大于预设第二阈值的情况下, 根据目标数据, 在医学知识图谱中进行检索, 得到目标数据对应 的目标检索结果, 并确定目标数据与目标检索结 果的相似度; 根据预设的质控策略、 以及相似度, 对医学知识图谱进行质控处理。 提高医学知 识图 谱的质控效果。 权利要求书2页 说明书18页 附图6页 CN 115358235 A 2022.11.18 CN 115358235 A 1.一种医学知识图谱的质控方法, 其特 征在于, 所述方法包括: 将所述医学数据输入至目标医学命名实体识别模型, 得到所述医学数据对应的识别结 果数据集; 在所述识别结果数据集的容量大于预设第 一阈值的情况下, 对所述识别结果数据集中 相同的识别数据进行汇总, 得到目标数据; 所述识别数据包括数据种类、 数据名称、 以及计 数值; 所述相同的识别数据是 数据种类、 以及数据名称都相同; 在所述目标数据的计数值大于预设第二阈值的情况下, 根据所述目标数据, 在医学知 识图谱中进行检索, 得到所述 目标数据对应的目标检索结果, 并确定所述 目标数据与所述 目标检索结果的相似度; 根据预设的质控策略、 以及所述相似度, 对所述医学知识图谱进行质控处 理。 2.根据权利要求1所述的方法, 其特征在于, 所述目标数据的数据种类包括目标实体数 据、 以及目标实体关系 数据; 所述根据预设的质控策略、 以及所述相似度, 对所述医学知识 图谱进行质控处 理包括: 在所述目标实体数据对应的实体相似度等于预设第 三阈值的情况下, 对所述目标实体 数据进行删除处 理; 在所述目标实体数据对应的实体相似度小于所述预设第 三阈值、 且大于预设第四阈值 的情况下, 根据所述 目标实体数据的计数值、 以及所述 目标实体数据对应的目标检索结果 的计数值, 对所述目标数据、 以及所述医学知识图谱分别进 行更新; 所述预设第四阈值小于 所述预设第三阈值; 在所述目标实体数据对应的实体相似度小于等于所述预设第四阈值的情况下, 在医学 知识图谱中增添 所述目标实体数据。 3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括: 在所述目标实体数据对应的实体相似度小于所述预设第 三阈值的情况下, 根据 所述目 标实体数据对应的目标实体关系 数据, 对所述医学知识图谱进行检索, 判断所述 目标实体 关系数据在所述医学知识图谱中是否已存在; 若否, 则在所述医学知识图谱中增添 所述目标实体关系数据。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 根据所述医学数据, 在所述医学知识图谱中进行检索, 若所述医学数据包含所述医学 知识图谱中的医学知识, 则确定所述医学知识的计数值, 所述医学知识的计数值为所述医 学数据包含所述医学知识的个数与所述医学知识图谱中的医学知识的计数值的和。 5.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 获取初始医学数据, 并确定所述初始医学数据的特征值, 在所述特征值具有唯一性的 情况下, 将所述初始医学 数据作为医学 数据。 6.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 将预设的第 一文本输入至预先训练 的字典模型, 得到所述预设的第 一文本对应的融合 向量序列; 所述融合向量序列中各融合向量的排列顺序与所述各融合向量对应的文字在所 述预设的第一文本中的排列顺序相同; 根据各所述融合向量与各所述文字的对应关系、 以及初始识别网络, 构建初始医学命 名实体识别模型; 所述初始识别网络是基于所述医学知识图谱的元数据进 行初始化得到的权 利 要 求 书 1/2 页 2 CN 115358235 A 2网络; 将预设的样本语料输入至初始医学命名实体识别模型, 得到预测实体集、 以及预测实 体关系集, 并根据所述预测实体集、 以及所述样本语料对应的样本实体集, 对所述初始医学 命名实体识别模型进行训练, 得到所述目标医学命名实体识别模型。 7.根据权利要求6所述的方法, 其特征在于, 所述预先训练的字典模型包括语义模型、 预先训练的字形模型、 分段结构、 以及融合模型; 所述将预设的第一文本输入至预先训练的 字典模型, 得到所述预设的第一文本对应的融合向量序列, 包括: 将预设的第 一文本, 分别 输入至所述语义模型、 以及所述预先训练的字形模型, 得到所 述语义模型对应的语义向量序列和所述预先训练的字形模型对应的目标字形向量序列, 并 将所述语义向量序列 与所述目标字形向量序列按位进行拼接, 得到 字符向量序列; 将所述字符向量序列输入至所述分段 结构, 得到初始分段向量序列; 将所述初始分段向量序列输入至融合模型, 得到预测分段向量序列; 根据所述预测分段向量序列、 以及所述初始分段向量序列, 得到所述预设的第一文本 对应的融合向量序列。 8.根据权利要求7所述的方法, 其特征在于, 所述将预设的第一文本, 分别输入至所述 语义模型、 以及所述预 先训练的字形模型之前, 还 包括: 将预设的第二文本 输入至待训练的字形模型; 针对所述预设的第二文本, 根据预设的文字与图像的对应关系, 得到所述预设的第二 文本对应的图像集; 确定所述图像集对应的字形向量序列; 根据所述字形向量序列、 以及所述预设的第二文本, 对所述待训练的字形模型进行训 练, 得到预 先训练的字形模型。 9.一种医学知识图谱的质控 装置, 其特 征在于, 所述装置包括: 第一确定模块, 用于对输入数据进行哈希计算, 得到所述输入数据对应的哈希值, 并判 断所述哈希值是否是已存的哈希值; 第一输入模块, 用于在所述哈希值不是所述已存的哈希值的情况下, 将所述输入数据 输入至目标医学命名实体识别模型, 得到所述输入数据对应的识别结果数据集; 合并模块, 用于在所述识别结果数据集中的行数超过预设第一阈值的情况下, 对所述 识别结果数据集中相同的行进行合并, 得到目标 数据集; 第二确定模块, 用于在所述目标实体计数子集中的目标实体对应的计数值超过预设第 二阈值的情况下, 针对所述计数值对应的目标实体, 在医学知识图谱中进 行检索, 得到对应 的目标检索结果, 并确定所述目标实体与所述目标实体对应的目标检索结果的相似度; 质控模块, 用于根据预设的质控策略、 以及所述相似度, 对医学知识图谱进行质控处 理。 10.一种计算机设备, 包括存储器和 处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115358235 A 3

.PDF文档 专利 医学知识图谱的质控方法、装置、计算机设备和存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医学知识图谱的质控方法、装置、计算机设备和存储介质 第 1 页 专利 医学知识图谱的质控方法、装置、计算机设备和存储介质 第 2 页 专利 医学知识图谱的质控方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。