(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111663667.6
(22)申请日 2021.12.31
(71)申请人 阳江市人民医院
地址 529500 广东省阳江市江城区东 山路
42号
(72)发明人 欧家满 莫北溪 阮舒华 郑伊颖
邓木清 邓凤阳
(74)专利代理 机构 广州蓝晟专利代理事务所
(普通合伙) 44452
专利代理师 欧阳凯
(51)Int.Cl.
G16H 10/60(2018.01)
G06F 40/194(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种相似病历智能匹配方法
(57)摘要
本发明公开了一种相似病历智能匹配方法,
包括如下步骤: 步骤一: 提取待分析的电子病历
中关键字段信息, 删除提取字段数据中缺失和重
复数据, 将关键字段文本切分为单个词符, 找出
最大切分组合, 得到关键字段的词向量表示; 步
骤二: 关键字段词向量作为深度神经网络预训练
模型的输入, 将三个经过大规模文本数据库训练
得到的语义模 型作为特征提取器, 配合全连接网
络实现对关键字段词向量进行迁移特征学习; 步
骤三: 依据验证字段与训练库已训练字段的特征
向量相似度, 对深度迁移特征学习后所得的特征
矩阵进行加权融合, 结合不同分类器策略, 得到
相似病历的智能匹配结果。 本发 明可以更好适应
复杂应用场景的实际需求, 能够应对复杂的应用
场景。
权利要求书2页 说明书7页 附图1页
CN 115188440 A
2022.10.14
CN 115188440 A
1.一种相似病历智能匹配方法, 其特 征在于: 包括如下步骤:
步骤一: 提取待分析的 电子病历中关键字段信息, 删除所提取字段数据中的缺失和重
复数据, 将关键字段文本切分为单个词符, 找出基于词频的最大切分组合, 得到 关键字段的
词向量表示;
步骤二: 将关键字段词向量作为深度神经网络预训练模型的输入, 将三个经过大规模
文本数据库训练得到的语义模型作为特征提取器, 配合全连接网络实现对关键字段词向量
进行迁移特 征学习;
步骤三: 依据验证字段与训练库已训练字段的特征向量相似度, 对深度迁移特征学习
后所得的特征矩阵进行加权融合, 结合 不同的分类 器策略, 得到相似病历的智能匹配结果。
2.根据权利要求1所述一种相似病历智能匹配方法, 其特征在于: 所述步骤一的具体实
现方法如下:
所述待分析的 电子病历中关键字段信息包括主诉、 入 院诊断、 院内检查及出院诊断四
个字段的信息, 依据 “主诉”、“入院诊断 ”、“院内检查 ”及“出院诊断 ”四个关键词进行提取;
所述词向量表示的提取具体包括将关键字段文本切分为单个词符, 找出基于词频的最
大切分组合, 使用One ‑Hot方法获得待分析文本的词向量表示。
3.根据权利要求1所述一种相似病历智能匹配方法, 其特征在于: 所述步骤二的具体实
现方法如下:
将预处理得到的词向量分别作为深度神经网络预训练模型Bert, ALBert和RoBerta的
输入, 在每个预训练模型的末端增加一层 全连接层, 进 行迁移特征学习, 完成文本的深度特
征提取, 形成对应于三个预训练模型的深度特 征矩阵F1, F2, F3 。
4.根据权利要求1所述一种相似病历智能匹配方法, 其特征在于: 所述步骤三的具体实
现方法如下:
计算测试字段与训练库已训练字段的特征向量相似度, 具体为: 计算测试字段与训练
库中已训练字段对应特征向量的余弦相似度, 所得余弦相似度形成文本相似度, 记为ε1, ε
2, ε3, 以ε12+ε22+ε32的二次平方根为度量值, 取度量值最近邻10个已训练特征向量, 其与所
验证特征向量之间的余弦相似度值的平均值
作为判断三个深度学习模型
习得的特 征向量在最终分类任务中的权 重值;
对于计算所得的相似度值, 满足
时, 调用权值分类方案S1; 相似度值满
足
调用权值分类方案S2; 相似度值满足
调用权值分类
方案S3 ; 相似度值满足
调 用权值分类方案S4 ; 相似度值满足
调用权值分类方案S5; 相似度值满足
调用权值分类方案
S6; 相似度值满足
调用权值分类方案S7; 相似度值满足
调用权值分类方案S 8; 相似度值满足
调用权值分享方案S9。
5.根据权利要求4所述一种相似病历智能匹配方法, 其特征在于: 所述权值分类方案S1
具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联: Q1={a1 ×权 利 要 求 书 1/2 页
2
CN 115188440 A
2F1特征数值, a2 ×F2特征数值, a3 ×F3特征数值}; 其中, a1,a2,a3为权值, Q1为级联后的特
征数值, 将Q1输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S2具体指特征学习后所得特征数据通过加权方式进行数值融合和
数值矩阵级联: Q2={b1 ×F1特征矩阵, b2 ×F2特征矩阵, b3 ×F3特征矩阵}; 其中, b1,b2,b3
为权值, Q2为级联后的特 征数值, 将Q2输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S3具体指特征学习后所得特征数据通过加权方式进行数值融合和
数值矩阵级联: Q3={c1 ×F1特征矩阵, c2 ×F2特征矩阵, c3 ×F3特征矩阵}; 其中, c1,c2,c3
为权值, Q3为级联后的特 征数值, 将Q3 输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S4具体指特征学习后所得特征数据通过加权方式进行数值融合和
数值矩阵级联: Q4={d1 ×F1特征矩阵, d2 ×F2特征矩阵, d3 ×F3特征矩阵}; 其中, d1,d2,d3
为权值, Q 4为级联后的特 征数值, 将Q 4输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S5具体指特征学习后所得特征数据通过加权方式进行数值融合和
数值矩阵级联: Q5={e1 ×F1特征矩阵, e2 ×F2特征矩阵, e3 ×F3特征矩阵}; 其中, e1,e2,e3
为权值, Q5为级联后的特 征数值, 将Q5 输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S6具体指特征学习后所得特征数据通过加权方式进行数值融合和
数值矩阵级联: Q6={f1 ×F1特征矩阵, f2 ×F2特征矩阵, f3 ×F3特征矩阵}; 其中, f1,f2,f3
为权值, Q6为级联后的特 征数值, 将Q6 输入到全连接网络进行分类, 实现相似性匹配任务;
所述权值分类方案S7具体指特征学习后所得特征数据通过加权方式进行数值融合: Q7
={g1×F1特征矩阵}; 其中, g1为权值,
Q7为融合后的步态特
征数值, 将Q7输入到 长短期记 忆网络进行分类, 实现相似性匹配任务;
所述权值分类方案S8具体指特征学习后所得特征数据通过加权方式进行数值融合: Q8
={h1×F1特征矩阵}; 其中, h1为权值,
Q8为融合后的步态特
征数值, 将Q8输入到 长短期记 忆网络进行分类, 实现相似性匹配任务;
所述权值分类方案S9具体指特征学习后所得特征数据通过加权方式进行数值融合: Q9
={i1×F1特征矩阵}; 其中, i1为权值,
Q9为融合后的步态特 征
数值, 将Q9输入到 长短期记 忆网络进行分类, 实现相似性匹配任务。权 利 要 求 书 2/2 页
3
CN 115188440 A
3
专利 一种相似病历智能匹配方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:18:59上传分享