专利 一种相似病历智能匹配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111663667.6 (22)申请日 2021.12.31 (71)申请人阳江市人民医院地址 529500 广东省阳江市江城区东山路 42号 (72)发明人欧家满　莫北溪　阮舒华　郑伊颖　邓木清　邓凤阳　 (74)专利代理机构广州蓝晟专利代理事务所 (普通合伙) 44452 专利代理师欧阳凯 (51)Int.Cl. G16H 10/60(2018.01) G06F 40/194(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种相似病历智能匹配方法 (57)摘要本发明公开了一种相似病历智能匹配方法，包括如下步骤：步骤一：提取待分析的电子病历中关键字段信息，删除提取字段数据中缺失和重复数据，将关键字段文本切分为单个词符，找出最大切分组合，得到关键字段的词向量表示；步骤二：关键字段词向量作为深度神经网络预训练模型的输入，将三个经过大规模文本数据库训练得到的语义模型作为特征提取器，配合全连接网络实现对关键字段词向量进行迁移特征学习；步骤三：依据验证字段与训练库已训练字段的特征向量相似度，对深度迁移特征学习后所得的特征矩阵进行加权融合，结合不同分类器策略，得到相似病历的智能匹配结果。本发明可以更好适应复杂应用场景的实际需求，能够应对复杂的应用场景。权利要求书2页说明书7页附图1页 CN 115188440 A 2022.10.14 CN 115188440 A 1.一种相似病历智能匹配方法，其特征在于：包括如下步骤：步骤一：提取待分析的电子病历中关键字段信息，删除所提取字段数据中的缺失和重复数据，将关键字段文本切分为单个词符，找出基于词频的最大切分组合，得到关键字段的词向量表示；步骤二：将关键字段词向量作为深度神经网络预训练模型的输入，将三个经过大规模文本数据库训练得到的语义模型作为特征提取器，配合全连接网络实现对关键字段词向量进行迁移特征学习；步骤三：依据验证字段与训练库已训练字段的特征向量相似度，对深度迁移特征学习后所得的特征矩阵进行加权融合，结合不同的分类器策略，得到相似病历的智能匹配结果。 2.根据权利要求1所述一种相似病历智能匹配方法，其特征在于：所述步骤一的具体实现方法如下：所述待分析的电子病历中关键字段信息包括主诉、入院诊断、院内检查及出院诊断四个字段的信息，依据 “主诉”、“入院诊断 ”、“院内检查 ”及“出院诊断 ”四个关键词进行提取；所述词向量表示的提取具体包括将关键字段文本切分为单个词符，找出基于词频的最大切分组合，使用One ‑Hot方法获得待分析文本的词向量表示。 3.根据权利要求1所述一种相似病历智能匹配方法，其特征在于：所述步骤二的具体实现方法如下：将预处理得到的词向量分别作为深度神经网络预训练模型Bert， ALBert和RoBerta的输入，在每个预训练模型的末端增加一层全连接层，进行迁移特征学习，完成文本的深度特征提取，形成对应于三个预训练模型的深度特征矩阵F1， F2， F3 。 4.根据权利要求1所述一种相似病历智能匹配方法，其特征在于：所述步骤三的具体实现方法如下：计算测试字段与训练库已训练字段的特征向量相似度，具体为：计算测试字段与训练库中已训练字段对应特征向量的余弦相似度，所得余弦相似度形成文本相似度，记为ε1， ε 2， ε3，以ε12+ε22+ε32的二次平方根为度量值，取度量值最近邻10个已训练特征向量，其与所验证特征向量之间的余弦相似度值的平均值作为判断三个深度学习模型习得的特征向量在最终分类任务中的权重值；对于计算所得的相似度值，满足时，调用权值分类方案S1；相似度值满足调用权值分类方案S2；相似度值满足调用权值分类方案S3 ；相似度值满足调用权值分类方案S4 ；相似度值满足调用权值分类方案S5；相似度值满足调用权值分类方案 S6；相似度值满足调用权值分类方案S7；相似度值满足调用权值分类方案S 8；相似度值满足调用权值分享方案S9。 5.根据权利要求4所述一种相似病历智能匹配方法，其特征在于：所述权值分类方案S1 具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q1＝{a1 ×权　利　要　求　书 1/2 页 2 CN 115188440 A 2F1特征数值， a2 ×F2特征数值， a3 ×F3特征数值}；其中， a1,a2,a3为权值， Q1为级联后的特征数值，将Q1输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S2具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q2＝{b1 ×F1特征矩阵， b2 ×F2特征矩阵， b3 ×F3特征矩阵}；其中， b1,b2,b3 为权值， Q2为级联后的特征数值，将Q2输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S3具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q3＝{c1 ×F1特征矩阵， c2 ×F2特征矩阵， c3 ×F3特征矩阵}；其中， c1,c2,c3 为权值， Q3为级联后的特征数值，将Q3 输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S4具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q4＝{d1 ×F1特征矩阵， d2 ×F2特征矩阵， d3 ×F3特征矩阵}；其中， d1,d2,d3 为权值， Q 4为级联后的特征数值，将Q 4输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S5具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q5＝{e1 ×F1特征矩阵， e2 ×F2特征矩阵， e3 ×F3特征矩阵}；其中， e1,e2,e3 为权值， Q5为级联后的特征数值，将Q5 输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S6具体指特征学习后所得特征数据通过加权方式进行数值融合和数值矩阵级联： Q6＝{f1 ×F1特征矩阵， f2 ×F2特征矩阵， f3 ×F3特征矩阵}；其中， f1,f2,f3 为权值， Q6为级联后的特征数值，将Q6 输入到全连接网络进行分类，实现相似性匹配任务；所述权值分类方案S7具体指特征学习后所得特征数据通过加权方式进行数值融合： Q7 ＝{g1×F1特征矩阵}；其中， g1为权值， Q7为融合后的步态特征数值，将Q7输入到长短期记忆网络进行分类，实现相似性匹配任务；所述权值分类方案S8具体指特征学习后所得特征数据通过加权方式进行数值融合： Q8 ＝{h1×F1特征矩阵}；其中， h1为权值， Q8为融合后的步态特征数值，将Q8输入到长短期记忆网络进行分类，实现相似性匹配任务；所述权值分类方案S9具体指特征学习后所得特征数据通过加权方式进行数值融合： Q9 ＝{i1×F1特征矩阵}；其中， i1为权值， Q9为融合后的步态特征数值，将Q9输入到长短期记忆网络进行分类，实现相似性匹配任务。权　利　要　求　书 2/2 页 3 CN 115188440 A 3

专利 一种相似病历智能匹配方法

专利一种相似病历智能匹配方法