专利 模型的训练方法、实体关系抽取方法、装置、介质、设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111670566.1 (22)申请日 2021.12.31 (71)申请人天津开心生活科技有限公司地址 301800 天津市宝坻区节能环保工业区海关大厦2 20-41 (72)发明人王伟　 (74)专利代理机构北京律智知识产权代理有限公司 11438 代理人王辉　阚梓瑄 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/289(2020.01) G06F 40/117(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称模型的训练方法、实体关系抽取方法、装置、介质、设备 (57)摘要本公开涉及医疗数据挖掘技术领域，提供了医学实体关系抽取模型的训练方法及装置、医学实体关系抽取方法及装置、计算机存储介质和电子设备。其中，上述的模型的训练方法包括：获取训练样本集，所述训练样本集包括有标签训练样本集和全局无标签训练样本集；根据有标签训练样本集对一预设自注意力模型进行有监督学习训练，以得到初始自注意力模型；基于所述全局无标签训练样本集，更新可靠训练样本集，在无标签训练样本集中的无标签样本数据的数量满足预设条件时，基于当前更新后的可靠样本训练集，确定出用于医学实体关系模型抽取的目标自注意力模型。本方案基于半监督学习的思想，可以提高医学实体关系模型训练效率和医学实体关系的抽取效率。权利要求书4页说明书15页附图4页 CN 114298050 A 2022.04.08 CN 114298050 A 1.一种医学实体关系抽取模型的训练方法，其特征在于，包括：获取训练样本集，所述训练样本集包括有标签训练样本集和全局无标签训练样本集；根据有标签训练样本集进行有监督学习训练，以得到初始自注意力模型；基于所述全局无标签训练样本集，重复执行以下训练过程，直到满足第一预设条件时，基于当前更新后的可靠样本训练集，确定出用于医学实体关系抽取的目标自注意力模型：获取全局无标签训练样本集中的无标签样本数据，根据当前的初始自注意力模型预测所述无标签样本数据属于不同预设实体关系类型的概率；基于所述概率确定出可靠数据，并根据所述可靠数据更新可靠训练样本集；在当前确定出的所述可靠数据的数量满足第二条件时，基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练，以更新所述初始自注意力模型；其中，所述有标签训练样本集中包括样本电子病历和其对应的标注数据，所述标注数据包括所述样本电子病历中包括的医学实体对以及各所述医学实体对的实体关系，所述无标签训练样本集中包括未标注的样本电子病历。 2.根据权利要求1所述的医学实体关系抽取模型的训练方法，其特征在于，所述根据有标签训练样本集对一预设自注意力模型进行有监督学习训练，以得到初始自注意力模型，包括：将所述有标签训练样本集划分为训练集和测试集；根据所述训练集进行有监督学习训练，以得到待调整自注意力模型；根据所述测试对所述待调整自注意力模型进行测试，以得到所述待调整自注意力模型的模型评价指标的测试值；在所述模型评价指标的测试值满足第三预设条件时，确定所述待调整自注意力模型为所述初始自注意力模型。 3.根据权利要求1所述的医学实体关系抽取模型的训练方法，其特征在于，所述基于所述概率确定出可靠数据，并根据所述可靠数据更新可靠训练样本集，包括：在预测出的所述无标签样本数据属于任一预设实体关系类型的概率大于或等于第一预设值时，将所述无标签样本数据确定为所述可靠数据，并将所述无标签样本数据添加至所述可靠训练样本集。 4.根据权利要求3所述的医学实体关系抽取模型的训练方法，其特征在于，所述基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练，以更新所述初始自注意力模型，包括：将所述概率大于或等于第一预设值的预设实体关系类型确定为所述无标签样本数据的标签，以为所述无标签样本数据添加所述标签；基于所述有标签训练样本集和更新后的所述可靠训练样本集得到更新后的有标签训练样本集；根据更新后的所述有标签训练样本集进行有监督学习训练，以更新所述初始自注意力模型。 5.根据权利要求4所述的医学实体关系抽取模型的训练方法，其特征在在于，所述根据更新后的所述有标签训练样本集进行有监督学习训练，以更新所述初始自注意力模型，包括：权　利　要　求　书 1/4 页 2 CN 114298050 A 2获取所述更新后的所述有标签训练样本集中的样本电子病历，对所述样本电子病历进行分词处理，以得到出所述样本电子病历中包括的分词，根据预训练语言表征模型得到每个分词对应的语言特征向量；根据医学实体识别模型，识别出所述分词中的医学实体分词，并为识别出的所述医学实体分词添加标注，以得到每个分词的标注信息，所述标注信息用于表征所述分词是否为医学实体；将每个分词对应的语言特征向量输入到当前的初始自注意力模型中，以预测出不同分词对的实体关系；基于所述标注信息从各分词对对应的实体关系中确定出医学实体分词对的实体关系的预测结果；根据各所述医学实体分词对的实体关系的预测结果和所述医学实体分词对的实体关系的标签进行有监督学习训练，以更新所述初始自注意力模型。 6.根据权利要求3所述的医学实体关系抽取模型的训练方法，将所述无标签样本数据确定为所述可靠数据后，所述方法还包括：从所述全局无标签样本训练集中删除所述无标签样本数据；所述第一预设条件包括所述全局无标签样本训练集中的无标签样本数据的数量小于或等于第二预设值。 7.根据权利要求1所述的医学实体关系抽取模型的训练方法，其特征在在于，在当前确定出的所述可靠数据的数量满足第二条件时，基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练，包括：在当前确定出的所述可靠数据的数量满足第三预设值时，基于所述有标签训练样本集和更新后的所述可靠训练样本集重新进行训练。 8.根据权利要求1所述的医学实体关系抽取模型的训练方法，其特征在于，所述直到满足第一预设条件时，基于当前更新后的可靠训练样本集，确定出用于医学实体关系模型抽取的目标自注意力模型，包括：基于所述有标签训练样本集和当前更新后的所述可靠训练样本集得到更新后的有标签训练样本集；将所述有标签训练样本集划分为训练集和测试集；根据所述训练集对当前更新后的初始自注意力模型进行训练，以得到待测试自注意力模型；根据所述测试集对所述待测试自注意力模型进行测试，以得到所述待测试自注意力模型的模型评价指标的测试值；在所述模型评价指标的测试值满足第四预设条件时，确定所述待测试自注意力模型为所述目标自注意力模型。 9.一种医学实体关系抽取方法，其特征在于，包括：获取待处理电子病历对应的分词结果，根据预训练语言表征模型得到每个分词对应的语言特征向量；根据医学实体识别模型，识别出所述分词结果中的医学实体分词，并为识别出的所述医学实体分词添加标注，以得到每个分词的标注信息，所述标注信息用于表征所述分词是权　利　要　求　书 2/4 页 3 CN 114298050 A 3

专利 模型的训练方法、实体关系抽取方法、装置、介质、设备

专利模型的训练方法、实体关系抽取方法、装置、介质、设备