专利一种基于混合采样策略的中文电子病历命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211295864.1 (22)申请日 2022.10.21 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人雷大江　魏琪　姜同远　田宏志　王烨　于洪　王国胤　 (74)专利代理机构重庆辉腾律师事务所 5 0215 专利代理师王诗思 (51)Int.Cl. G16H 10/60(2018.01) G06F 40/295(2020.01) G06F 40/126(2020.01) G06F 40/194(2020.01) G06K 9/62(2022.01) (54)发明名称一种基于混合采样策略的中文电子病历命名实体识别方法 (57)摘要本发明属于文本处理领域，提供了一种基于混合采样策略的中文电子病历命名实体识别方法，所述方法包括获取有标记实体的源领域数据集和少量标记实体或无标记实体的目标领域数据集；利用源领域数据集训练命名实体识别模型。运用迁移学习将模型应用到目标源领数据集中，得到实体识别结果；运用混合采样策略的主动学习从实体识别结果中选出最有价值的样本，人工标注后加入到训练集中，重复上述过程，直到目标领域实体识别结果达到要求。本发明通过迁移从源领域中学习的知识到目标领域中，缓解了零标记样本冷启动问题，通过选取最有价值的样本减少了人工标注数据量并减少了单位样本的标注成本，同时提高了中文电子病历对于句子级的命名实体识别准确率。权利要求书2页说明书6页附图2页 CN 115497590 A 2022.12.20 CN 115497590 A 1.一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，包括：获取中文电子病历命名数据集样本，并将其划分为源领域数据集样本和目标领域数据集样本；将源领域数据集样本输入到命名实体识别模型中，对其进行预训练；将第一部分的目标领域数据集样本输入到预训练后的命名实体识别模型中，得到第一实体识别结果；采用混合采样策略从所述第一实体识别结果中选择出对应的最优价值的目标领域数据集样本；对选择出的目标领域数据集样本进行标签处理，将处理后的目标领域数据集样本输入到预训练后的命名实体识别模型，对其进行重训练；将第二部分的目标领域数据集样本输入到重训练后的命名实体识别模型中，得到第二实体识别结果。 2.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，所述命名实体识别模型包括Bert层、 Bilstm层和CRF层；所述Bert层用于对中文电子病历文本中的各个单词生成词嵌入向量；所述Bilstm层用于中文电子病历文本的词嵌入向量和序列特征进行整合并进行特征编码，得到标签；所述CRF层使用维特比算法得到最优的标签序列，所述标签序列即为对中文电子病历文本的实体识别结果。 3.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，对所述命名实体识别模型进行预训练包括定义损失函数，在预训练的过程中对命名实体识别模型参数进行更新，以不断减少损失，当所述损失函数收敛时，完成预训练，确定出预训练后的命名实体识别模型。 4.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，所述采用混合采样策略从所述第一实体识别结果中选择出对应的最优价值的目标领域数据集样本包括采用不确定采样策略结合代表性采样策略从第一部分的目标领域数据集样本筛选出最优价值的目标领域数据集样本，即利用不确定采样策略选择序列置信度高的序列样本，利用代表性采样策略选择信息密度大的序列样本。 5.根据权利要求4所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，利用不确定采样策略选择序列置信度高的序列样本所采用的公式包括计算每个序列样本在各个分词处的置信度，根据每个序列样本在各个分词处的的置信度计算出归一化置信度，选择出归一化置信度高的序列样本。 6.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，每个序列样本的置信度的计算公式表示为：其中， ΦLE(xij)表示第j个序列样本在第i个分词xij处置信度，是第i个分词xi对应的最可能的标签序列， j＝{1,2,...,m}， m表示序列样本个数， i＝{1,2,...,n}， n表示每个序列样本中的分词数量。 7.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，每个序列样本的归一化置信度的计算公式表示为：权　利　要　求　书 1/2 页 2 CN 115497590 A 2其中， ΦLC(xj)表示第j个序列样本xj的归一化置信度，是第i个分词xi对应的最可能的标签序列， j＝{1,2,...,m}， m表示序列样本个数， i＝{1,2,...,n}， n表示每个序列样本中的分词数量。 8.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，利用代表性采用策略选择信息密度大的序列样本所采用的公式包括： ΦID(xj)＝ΦSE(xj)×ΦSR(xj) 其中， ΦID(xj)表示目标领域数据集样本xj的信息密度， ΦSE(xj)表示目标领域数据集样本xj的信息熵， ΦSR(xj)表示目标领域数据集样本xj的代表性。 9.根据权利要求8所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，所述信息熵的计算公式表示为：其中， ΦSE(xj)表示第j个序列样本xj的信息熵， i＝{1,2,...,n}， n表示每个序列样本中的分词数量， L为标签个数； P(yi＝l)表示当前预测结果l时，序列样本中分词位置为i的字符的边缘概率。 10.根据权利要求8所述的一种基于混合采样策略的中文电子病历命名实体识别方法，其特征在于，所述信息密度的计算公式表示为：其中， ΦSR(xj)为序列样本xj的代表性， U为未标注样本池中的其他序列样本数量， xu表示未标注样本池中的第u个序列样本， sim(xj,xu)为序列样本xj与序列样本x(u)的相似度。权　利　要　求　书 2/2 页 3 CN 115497590 A 3

专利 一种基于混合采样策略的中文电子病历命名实体识别方法

专利一种基于混合采样策略的中文电子病历命名实体识别方法