专利医学影像报告信息抽取方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210717523.2 (22)申请日 2022.06.23 (65)同一申请的已公布的文献号申请公布号 CN 114783559 A (43)申请公布日 2022.07.22 (73)专利权人浙江太美医疗科技股份有限公司地址 314001 浙江省嘉兴市昌盛南路3 6号智慧产业创新园9号楼3层 (72)发明人赵周剑　罗琼　王永明　 (74)专利代理机构苏州三英知识产权代理有限公司 32412 专利代理师潘时伟 (51)Int.Cl. G16H 15/00(2018.01) G06V 30/413(2022.01)G06F 40/279(2020.01) G06F 40/216(2020.01) G06F 16/36(2019.01) G06F 16/35(2019.01) (56)对比文件 CN 113468887 A,2021.10.01 CN 112487813 A,2021.0 3.12 CN 114550915 A,202 2.05.27 WO 2022022045 A1,202 2.02.03 WO 2021190236 A1,2021.09.3 0 敬星.基于词向量与CRF的命名实体识别研究. 《无线互联科技》 .2017,(第01期), 审查员程乐芬 (54)发明名称医学影像报告信息抽取方法、装置、电子设备和存储介质 (57)摘要本申请公开了一种医学影像报告信息抽取方法、装置、电子设备和存储介质，其中该方法包括：基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；将所述文本信息组装为段落文本，以过滤出目标类型文本信息；分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息；基于第二神经网络模型从所述目标实体信息中抽取关系信息。这样，使用者可以方便地查阅医学影像报告的关键信息，且信息抽取结果的可靠性高。权利要求书3页说明书11页附图5页 CN 114783559 B 2022.09.30 CN 114783559 B 1.一种医学影像报告信息抽取方法，其特征在于，所述方法包括：基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；将所述文本信息组装为段落文本，以过滤出目标类型文本信息；分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息；基于第二神经网络模型从所述目标实体信息中抽取关系信息；其中，基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息，具体包括：将所述目标类型文本信息划分为若干文本片段信息；基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息的第一划分组词频概率；基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息的第二划分组词频概率；分别将所述第一划分组词频概率和第二划分组词频概率中较大者对应的实体信息，确定为各文本片段信息的目标实体信息；基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息的第一划分组词频概率，具体包括：基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息中的第一划分组实体；从预训练词频库中获取所述第一划分组实体的词频；基于分词模型和所述第一划分组实体的词频，分别确定所述若干文本片段信息中除第一划分组实体外的第一划分组词汇；从所述预训练词频库中获取所述第一划分组词汇的词频；基于所述第一划分组实体的词频和第一划分组词汇的词频，分别确定所述若干文本片段信息的第一划分组词频概率；基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息的第二划分组词频概率，具体包括：基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息中的第二划分组实体；从预训练词频库中获取所述第二划分组实体的词频；基于分词模型和所述第二划分组实体的词频，分别确定所述若干文本片段信息中除第二划分组实体外的第二划分组词汇；从所述预训练词频库中获取所述第二划分组词汇的词频；基于所述第二划分组实体的词频和第二划分组词汇的词频，分别确定所述若干文本片段信息的第二划分组词频概率。 2.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，基于光学字符识别 OCR模型从目标医学影像报告中识别出文本信息，具体包括：将所述目标医学影像报告旋转至设定角度，并检测其中的连续文本坐标；基于所述连续文本坐标进行透视变换，以获取文本区域图片；权　利　要　求　书 1/3 页 2 CN 114783559 B 2基于所述OCR模型从所述文本区域图片中识别出文本信息。 3.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，将所述文本信息组装为段落文本，以过滤出目标类型文本信息，具体包括：基于文本字符间距和文本行间距，将所述文本信息组装为段落文本；基于所述段落文本中文本行的字数以及文本缩进，确定候选文本信息；以所述候选文本信息匹配目标文本库，以过滤出目标类型文本信息。 4.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述第一神经网络模型的训练过程包括：获取样本医学影像报告，其中，所述样本医学影像报告中标注有实体信息，且所述标注的实体信息至少两两标注有关联关系；基于所述样本医学影像报告对所述第一神经网络模型进行训练。 5.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述方法还包括：基于样本实体词库，确定样本医学语料中的样本实体；配置所述样本医学语料中的样本实体的词频，以供所述分词模型划分出所述样本医学语料中除样本实体外的样本词汇；构建所述预训练词频库，其中，所述预训练词频库包括所述配置的样本实体的词频、样本词汇的词频、以及样本医学语料的总词频。 6.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，基于第二神经网络模型从所述目标实体信息中抽取关系信息，具体包括：获取与所述目标实体信息相匹配的标识；基于所述第二神经网络模型，提取所述目标实体信息的标识的隐藏状态特征向量；将任意两个目标实体信息的标识的隐藏状态特征向量进行拼接，得到所述任意两个标识的关系向量；将所述关系向量进行组合，并对得到的向量矩阵进行分类，以获得所述目标实体信息的关系信息。 7.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述实体信息包括部位、疾病、症状、检测项目、数值、病灶、修饰词、检查名称、指代词、未见疾病中的至少一种；和/或，所述关系信息包括症状表现部位、结果、修饰、检测项目、病变部位、指代、侵犯部位、病灶倾向中的至少一种。 8.根据权利要求7 所述的医学影像报告信息抽取方法，其特征在于，所述方法还包括：以所述实体信息中的部位作为主实体，使用所述目标类型文本信息中抽取的所述关系信息对所述实体信息进行连接，获得所述目标类型文本信息的知识图谱。 9.一种医学影像报告信息抽取装置，其特征在于，所述医学影像报告信息抽取装置包括：识别模块，用于基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；过滤模块，用于将所述文本信息组装为段落文本，以过滤出目标类型文本信息；实体抽取模块，用于分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；权　利　要　求　书 2/3 页 3 CN 114783559 B 3

专利 医学影像报告信息抽取方法、装置、电子设备和存储介质

专利医学影像报告信息抽取方法、装置、电子设备和存储介质