(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111670566.1
(22)申请日 2021.12.31
(71)申请人 天津开心生活科技有限公司
地址 301800 天津市宝坻区节能环保工业
区海关大厦2 20-41
(72)发明人 王伟
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
代理人 王辉 阚梓瑄
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/289(2020.01)
G06F 40/117(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
模型的训练方法、 实体 关系抽取方法、 装置、
介质、 设备
(57)摘要
本公开涉及医疗 数据挖掘技术领域, 提供了
医学实体关系抽取模型的训练方法及装置、 医学
实体关系抽取方法及装置、 计算机存储介质和电
子设备。 其中, 上述的模 型的训练方法包括: 获取
训练样本集, 所述训练样本集包括有标签训练样
本集和全局无标签训练样本集; 根据有标签训练
样本集对一预设自注意力模型进行有监督学习
训练, 以得到初始自注意力模型; 基于所述全局
无标签训练样本集, 更新可靠训练样本集, 在无
标签训练样本集中的无标签样本数据的数量满
足预设条件时, 基于当前更新后的可靠样本训练
集, 确定出用于医学实体关系模 型抽取的目标自
注意力模型。 本方案基于半监督学习的思想, 可
以提高医学实体关系模型训练效率和 医学实体
关系的抽取效率。
权利要求书4页 说明书15页 附图4页
CN 114298050 A
2022.04.08
CN 114298050 A
1.一种医学实体关系抽取模型的训练方法, 其特 征在于, 包括:
获取训练样本集, 所述训练样本集包括有标签训练样本集和全局无 标签训练样本集;
根据有标签训练样本集进行有监 督学习训练, 以得到初始自注意力模型;
基于所述全局无标签训练样本集, 重复执行以下训练过程, 直到满足第 一预设条件时,
基于当前 更新后的可靠样本训练集, 确定出用于医学实体关系抽取的目标自注意力模型:
获取全局无标签训练样本集中的无标签样本数据, 根据当前的初始自注意力模型预测
所述无标签样本数据属于不同预设实体关系类型的概 率;
基于所述 概率确定出 可靠数据, 并根据所述可靠数据更新可靠训练样本集;
在当前确定出的所述可靠数据的数量满足第 二条件时, 基于所述有标签训练样本集和
更新后的所述可靠训练样本集重新进行训练, 以更新所述初始自注意力模型;
其中, 所述有标签训练样本集中包括样本电子病历和其对应的标注数据, 所述标注数
据包括所述样本电子病历中包括的医学实体对以及各所述医学实体对的实体关系, 所述无
标签训练样本集中包括未 标注的样本电子病历。
2.根据权利要求1所述的医学实体关系抽取模型的训练方法, 其特征在于, 所述根据有
标签训练样本集对一预设自注意力模型进行有监督学习训练, 以得到初始自注意力模型,
包括:
将所述有标签训练样本集划分为训练集和 测试集;
根据所述训练集进行有监 督学习训练, 以得到待调整自注意力模型;
根据所述测试对所述待调 整自注意力模型进行测试, 以得到所述待调整自注意力模型
的模型评价指标的测试值;
在所述模型评价指标的测试值满足第 三预设条件时, 确定所述待调 整自注意力模型为
所述初始自注意力模型。
3.根据权利要求1所述的医学实体关系抽取模型的训练方法, 其特征在于, 所述基于所
述概率确定出 可靠数据, 并根据所述可靠数据更新可靠训练样本集, 包括:
在预测出的所述无标签样本数据属于任一预设实体关系类型的概率大于或等于第一
预设值时, 将所述无标签样本数据确定为所述可靠数据, 并将所述无标签样本数据添加至
所述可靠训练样本集。
4.根据权利要求3所述的医学实体关系抽取模型的训练方法, 其特征在于, 所述基于所
述有标签训练样本集和更新后的所述可靠训练样本集重新进 行训练, 以更新所述初始自注
意力模型, 包括:
将所述概率大于或等于第一预设值的预设实体关系类型确定为所述无标签样本数据
的标签, 以为所述无 标签样本数据添加所述标签;
基于所述有标签训练样本集和更新后的所述可靠训练样本集得到更新后的有标签训
练样本集;
根据更新后的所述有标签训练样本集进行有监督学习训练, 以更新所述初始自注意力
模型。
5.根据权利要求4所述的医学实体关系抽取模型的训练方法, 其特征在在于, 所述根据
更新后的所述有标签训练样本集进行有监督学习训练, 以更新所述初始自注意力模型, 包
括:权 利 要 求 书 1/4 页
2
CN 114298050 A
2获取所述更新后的所述有标签训练样本集中的样本电子病历, 对所述样本电子病历进
行分词处理, 以得到出所述样本电子病历 中包括的分词, 根据预训练语言表征模型得到每
个分词对应的语言特 征向量;
根据医学实体识别模型, 识别出所述分词中的医学实体分词, 并为识别出的所述医学
实体分词添加标注, 以得到每个分词的标注信息, 所述标注信息用于表征所述分词是否为
医学实体;
将每个分词对应的语言特征向量输入到当前的初始自注意力模型中, 以预测出不同分
词对的实体关系;
基于所述标注信息从各分词对对应的实体关系中确定出医学实体分词对的实体关系
的预测结果;
根据各所述医学实体分词对的实体关系的预测结果和所述医学实体分词对的实体关
系的标签进行有监 督学习训练, 以更新所述初始自注意力模型。
6.根据权利要求3所述的医学实体关系抽取模型的训练方法, 将所述无标签样本数据
确定为所述可靠数据后, 所述方法还 包括:
从所述全局无 标签样本训练集中删除所述无 标签样本数据;
所述第一预设条件包括所述全局无标签样本训练集中的无标签样本数据的数量小于
或等于第二预设值。
7.根据权利要求1所述的医学实体关系抽取模型的训练方法, 其特征在在于, 在 当前确
定出的所述可靠数据的数量满足第二条件时, 基于所述有标签训练样本集和更新后的所述
可靠训练样本集重新进行训练, 包括:
在当前确定出的所述可靠数据的数量满足第 三预设值 时, 基于所述有标签训练样本集
和更新后的所述可靠训练样本集重新进行训练。
8.根据权利要求1所述的医学实体关系抽取模型的训练方法, 其特征在于, 所述直到满
足第一预设条件时, 基于当前更新后的可靠训练样本集, 确定出用于医学实体关系模型抽
取的目标自注意力模型, 包括:
基于所述有标签训练样本集和当前更新后的所述可靠训练样本集得到更新后的有标
签训练样本集;
将所述有标签训练样本集划分为训练集和 测试集;
根据所述训练集对当前更新后的初始自注意力模型进行训练, 以得到待测试自注意力
模型;
根据所述测试集对所述待测试自注意力模型进行测试, 以得到所述待测试自注意力模
型的模型评价指标的测试值;
在所述模型评价指标的测试值满足第四预设条件时, 确定所述待测试自注意力模型为
所述目标自注意力模型。
9.一种医学实体关系抽取 方法, 其特 征在于, 包括:
获取待处理电子病历对应的分词结果, 根据 预训练语言表征模型得到每个分词对应的
语言特征向量;
根据医学实体识别模型, 识别出所述分词结果中的医学实体分词, 并为识别出的所述
医学实体分词添加标注, 以得到每个分词的标注信息, 所述标注信息用于表征所述分词是权 利 要 求 书 2/4 页
3
CN 114298050 A
3
专利 模型的训练方法、实体关系抽取方法、装置、介质、设备
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:19上传分享