说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210717523.2 (22)申请日 2022.06.23 (65)同一申请的已公布的文献号 申请公布号 CN 114783559 A (43)申请公布日 2022.07.22 (73)专利权人 浙江太美医疗科技股份有限公司 地址 314001 浙江省嘉兴 市昌盛南路3 6号 智慧产业创新园9号楼3层 (72)发明人 赵周剑 罗琼 王永明  (74)专利代理 机构 苏州三英知识产权代理有限 公司 32412 专利代理师 潘时伟 (51)Int.Cl. G16H 15/00(2018.01) G06V 30/413(2022.01)G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01) (56)对比文件 CN 113468887 A,2021.10.01 CN 112487813 A,2021.0 3.12 CN 114550915 A,202 2.05.27 WO 2022022045 A1,202 2.02.03 WO 2021190236 A1,2021.09.3 0 敬星.基于词向量与CRF的命名实体识别研 究. 《无线互联科技》 .2017,(第01期), 审查员 程乐芬 (54)发明名称 医学影像报告信息抽取方法、 装置、 电子设 备和存储介质 (57)摘要 本申请公开了一种医学影像报告信息抽取 方法、 装置、 电子设备和存储介质, 其中该方法包 括: 基于光学字符识别OCR模型从目标医学影像 报告中识别出文本信息; 将所述文本信息组装为 段落文本, 以过滤出目标类型文本信息; 分别基 于第一神经网络模型和Trie树从所述目标类型 文本信息中抽取实体信息; 基于词频概率对所述 抽取的实体信息进行合并, 以确定目标实体信 息; 基于第二神经网络模型从所述目标实体信息 中抽取关系信息。 这样, 使用者可 以方便地查阅 医学影像报告的关键信息, 且信息抽取结果的可 靠性高。 权利要求书3页 说明书11页 附图5页 CN 114783559 B 2022.09.30 CN 114783559 B 1.一种医学影 像报告信息抽取 方法, 其特 征在于, 所述方法包括: 基于光学字符识别OCR模型从目标医学影 像报告中识别出文本信息; 将所述文本信息组装为段落文本, 以过 滤出目标类型文本信息; 分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息; 基于词频概 率对所述抽取的实体信息进行合并, 以确定目标实体信息; 基于第二神经网络模型从所述目标实体信息中抽取关系信息; 其中, 基于词频概率对所述抽取的实体信息进行合并, 以确定目标实体信息, 具体包 括: 将所述目标类型文本信息划分为若干文本片段信息; 基于所述第 一神经网络模型抽取的实体信 息, 分别确定所述若干文本片段信 息的第一 划分组词频概 率; 基于所述Trie树抽取的实体信息, 分别确定所述若干文本片段信息的第二划分组词频 概率; 分别将所述第 一划分组词频概率和第 二划分组词频概率中较大者对应的实体信 息, 确 定为各文本片段信息的目标实体信息; 基于所述第 一神经网络模型抽取的实体信 息, 分别确定所述若干文本片段信 息的第一 划分组词频概 率, 具体包括: 基于所述第 一神经网络模型抽取的实体信 息, 分别确定所述若干文本片段信 息中的第 一划分组实体; 从预训练词频库中获取 所述第一划分组实体的词频; 基于分词模型和所述第 一划分组实体的词频, 分别确定所述若干文本片段信 息中除第 一划分组实体外的第一划分组词汇; 从所述预训练词频库中获取 所述第一划分组词汇的词频; 基于所述第 一划分组实体的词频和第 一划分组词汇的词频, 分别确定所述若干文本片 段信息的第一划分组词频概 率; 基于所述Trie树抽取的实体信息, 分别确定所述若干文本片段信息的第二划分组词频 概率, 具体包括: 基于所述Trie树抽取的实体信息, 分别确定所述若干文本片段信息中的第二划分组实 体; 从预训练词频库中获取 所述第二划分组实体的词频; 基于分词模型和所述第 二划分组实体的词频, 分别确定所述若干文本片段信 息中除第 二划分组实体外的第二划分组词汇; 从所述预训练词频库中获取 所述第二划分组词汇的词频; 基于所述第 二划分组实体的词频和第 二划分组词汇的词频, 分别确定所述若干文本片 段信息的第二划分组词频概 率。 2.根据权利要求1所述的医学影像报告信 息抽取方法, 其特征在于, 基于光学字符识别 OCR模型从目标医学影 像报告中识别出文本信息, 具体包括: 将所述目标医学影 像报告旋转至设定角度, 并检测其中的连续文本坐标; 基于所述连续文本坐标进行透 视变换, 以获取文本区域图片;权 利 要 求 书 1/3 页 2 CN 114783559 B 2基于所述OCR模型从所述文本区域图片中识别出文本信息 。 3.根据权利要求1所述的医学影像报告信 息抽取方法, 其特征在于, 将所述文本信 息组 装为段落文本, 以过 滤出目标类型文本信息, 具体包括: 基于文本 字符间距和文本行间距, 将所述文本信息组装为段落文本; 基于所述段落文本中文本行的字数以及文本缩进, 确定候选文本信息; 以所述候选文本信息匹配目标文本库, 以过 滤出目标类型文本信息 。 4.根据权利要求1所述的医学影像报告信 息抽取方法, 其特征在于, 所述第 一神经网络 模型的训练过程包括: 获取样本 医学影像报告, 其中, 所述样本 医学影像报告中标注有实体信息, 且所述标注 的实体信息 至少两两标注有关联关系; 基于所述样本医学影 像报告对所述第一神经网络模型进行训练。 5.根据权利要求1所述的医学影 像报告信息抽取 方法, 其特 征在于, 所述方法还 包括: 基于样本实体词库, 确定样本医学语料中的样本实体; 配置所述样本 医学语料中的样本实体的词频, 以供所述分词模型划分出所述样本 医学 语料中除样本实体外的样本词汇; 构建所述预训练词频库, 其中, 所述预训练词频库包括所述配置的样本实体的词频、 样 本词汇的词频、 以及样本医学语料的总词频。 6.根据权利要求1所述的医学影像报告信 息抽取方法, 其特征在于, 基于第 二神经网络 模型从所述目标实体信息中抽取关系信息, 具体包括: 获取与所述目标实体信息相匹配的标识; 基于所述第二神经网络模型, 提取 所述目标实体信息的标识的隐藏状态特 征向量; 将任意两个目标实体信 息的标识的隐藏状态特征向量进行拼接, 得到所述任意两个标 识的关系向量; 将所述关系向量进行组合, 并对得到的向量矩阵进行分类, 以获得所述目标实体信息 的关系信息 。 7.根据权利要求1所述的医学影像报告信 息抽取方法, 其特征在于, 所述实体信 息包括 部位、 疾病、 症状、 检测项目、 数值、 病灶、 修饰词、 检查名称、 指代词、 未见疾病中的至少一 种; 和/或, 所述关系信息包括症状表现部位、 结果、 修饰、 检测项目、 病变部位、 指代、 侵犯部位、 病 灶倾向中的至少一种。 8.根据权利要求7 所述的医学影 像报告信息抽取 方法, 其特 征在于, 所述方法还 包括: 以所述实体信 息中的部位作为主实体, 使用所述目标类型文本信 息中抽取的所述关系 信息对所述实体信息进行 连接, 获得 所述目标类型文本信息的知识图谱。 9.一种医学影像报告信息抽取装置, 其特征在于, 所述医学影像报告信息抽取装置包 括: 识别模块, 用于基于光学字符识别OCR模型从目标医学影 像报告中识别出文本信息; 过滤模块, 用于将所述文本信息组装为段落文本, 以过 滤出目标类型文本信息; 实体抽取模块, 用于分别基于第一神经网络模型和Trie树从所述目标类型文本信息 中 抽取实体信息;权 利 要 求 书 2/3 页 3 CN 114783559 B 3

.PDF文档 专利 医学影像报告信息抽取方法、装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 医学影像报告信息抽取方法、装置、电子设备和存储介质 第 1 页 专利 医学影像报告信息抽取方法、装置、电子设备和存储介质 第 2 页 专利 医学影像报告信息抽取方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。