(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211295864.1
(22)申请日 2022.10.21
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 雷大江 魏琪 姜同远 田宏志
王烨 于洪 王国胤
(74)专利代理 机构 重庆辉腾律师事务所 5 0215
专利代理师 王诗思
(51)Int.Cl.
G16H 10/60(2018.01)
G06F 40/295(2020.01)
G06F 40/126(2020.01)
G06F 40/194(2020.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于混合采样策略的中文电子病历命
名实体识别方法
(57)摘要
本发明属于文本处理领域, 提供了一种基于
混合采样策略的中文电子病历命名实体识别方
法, 所述方法包括获取有 标记实体的源领域数据
集和少量标记实体或无标记实体的目标领域数
据集; 利用源领域数据集训练命名实体识别模
型。 运用迁移学习将模型应用到目标源领数据集
中, 得到实体识别结果; 运用混合采样策略的主
动学习从实体识别结果中选出最有价值的样本,
人工标注后加入到训练集中, 重复上述过程, 直
到目标领域实体识别结果达到要求。 本发明通过
迁移从源领域中学习的知识 到目标领域中, 缓解
了零标记样 本冷启动问题, 通过选取最有价值的
样本减少了人工标注数据量并减少了单位样本
的标注成本, 同时提高了中文电子病历对于句子
级的命名实体识别准确率。
权利要求书2页 说明书6页 附图2页
CN 115497590 A
2022.12.20
CN 115497590 A
1.一种基于混合采样策略的中文电子病历命名实体识别方法, 其特 征在于, 包括:
获取中文电子病历命名数据集样本, 并将其划分为源领域数据集样本和目标领域数据
集样本;
将源领域数据集样本 输入到命名实体识别模型中, 对其进行 预训练;
将第一部分的目标领域数据集样本输入到预训练后的命名实体识别模型中, 得到第 一
实体识别结果;
采用混合采样策略从所述第一实体识别结果中选择出对应的最优价值的目标领域数
据集样本;
对选择出的目标领域数据集样本进行标签处理, 将处理后的目标领域数据集样本输入
到预训练后的命名实体识别模型, 对其进行重训练;
将第二部分的目标领域数据集样本输入到重训练后的命名实体识别模型中, 得到第 二
实体识别结果。
2.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 所述命名实体识别模型包括Bert层、 Bilstm层和CRF层; 所述Bert层用于对中
文电子病历文本中的各个单词生 成词嵌入向量; 所述Bilstm层用于中文电子病历文本的词
嵌入向量和序列特征进 行整合并进 行特征编码, 得到标签; 所述CRF层使用维特比算法得到
最优的标签序列, 所述标签序列即为对中文电子病历文本的实体识别结果。
3.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 对所述命名实体识别模型进行预训练包括定义损失函数, 在预训练的过程中
对命名实体识别模型参数进行更新, 以不断减少损失, 当所述损失函数收敛时, 完成预训
练, 确定出 预训练后的命名实体识别模型。
4.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 所述采用混合采样策略从所述第一 实体识别结果中选择出对应的最优价值的
目标领域数据集样本包括采用不确定采样策略结合代表性采样策略从第一部分的目标领
域数据集样本筛选出最优价值的目标领域数据集样本, 即利用不确定采样策略选择序列置
信度高的序列样本, 利用代 表性采样策略选择信息密度大的序列样本 。
5.根据权利要求4所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 利用不确定采样策略选择序列置信度高的序列样本所采用的公式包括计算每
个序列样本在各个分词处的置信度, 根据每个序列样本在各个分词处的的置信度计算出归
一化置信度, 选择 出归一化置信度高的序列样本 。
6.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 每 个序列样本的置信度的计算公式表示 为:
其中, ΦLE(xij)表示第j个序列样本在第i个分词xij处置信度,
是第i个分词xi对应的
最可能的标签序列, j={1,2,...,m}, m表示序列样本个数, i={1,2,...,n}, n表示每个序
列样本中的分词数量。
7.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 每 个序列样本的归一 化置信度的计算公式表示 为:权 利 要 求 书 1/2 页
2
CN 115497590 A
2其中, ΦLC(xj)表示第j个序列样本xj的归一化置信度,
是第i个分词xi对应的最可能
的标签序列, j={1,2,...,m}, m表示序列样本个数, i={1,2,...,n}, n表示每个序列样本
中的分词数量。
8.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 利用代 表性采用策略选择信息密度大的序列样本所采用的公式包括:
ΦID(xj)=ΦSE(xj)×ΦSR(xj)
其中, ΦID(xj)表示目标领域数据集样本xj的信息密度, ΦSE(xj)表示目标领域数据集样
本xj的信息熵, ΦSR(xj)表示目标 领域数据集样本xj的代表性。
9.根据权利要求8所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 所述信息熵的计算公式表示 为:
其中, ΦSE(xj)表示第j个序列样本xj的信息熵, i={1,2,...,n}, n表示每个序列样本中
的分词数量, L为标签个数; P(yi=l)表示当前预测结果l时, 序列样本中分词位置为i的字
符的边缘概率。
10.根据权利要求8所述的一种基于混合采样策略的中文电子病历命名实体识别方法,
其特征在于, 所述信息密度的计算公式表示 为:
其中, ΦSR(xj)为序列样本xj的代表性, U为未标注样本池中的其他序列样本数量, xu表
示未标注样本池中的第u个序列样本, sim(xj,xu)为序列样本xj与序列样本x(u)的相似度。权 利 要 求 书 2/2 页
3
CN 115497590 A
3
专利 一种基于混合采样策略的中文电子病历命名实体识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:41:36上传分享