专利语义表示模型的训练方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210748496.5 (22)申请日 2022.06.29 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人田鑫　陈泽裕　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称语义表示模型的训练方法、装置、电子设备和存储介质 (57)摘要本公开提供了一种语义表示模型的训练方法、装置、电子设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习、自然语言处理技术领域。具体实现方案为：获取未标注的第一样本文本组；将第一样本文本组中的每个第一样本文本中的至少一个原始文本替换为掩码标签，以生成第二样本文本组；将第二样本文本组中的每个第二样本文本输入预训练语言模型中，以生成第三样本文本组；基于第一样本文本组和第三样本文本组对初始模型进行训练，得到训练后的语义表示模型。由此，可基于无标注的第一样本文本组，自动生成第三样本文本组，以对初始模型进行训练，适用于标注数据不足的应用场景，有助于提升语义表示模型的训练性能。权利要求书3页说明书12页附图6页 CN 114970549 A 2022.08.30 CN 114970549 A 1.一种语义表示模型的训练方法，包括：获取未标注的第一样本文本组；将所述第一样本文本组中的每个第一样本文本中的至少一个原始文本替换为掩码标签，以生成第二样本文本组；将所述第二样本文本组中的每个第二样本文本输入预训练语言模型中，以生成第三样本文本组；基于所述第一样本文本组和所述第三样本文本组对初始模型进行训练，得到训练后的语义表示模型。 2.根据权利要求1所述的方法，其中，所述第二样本文本组包括n个第二样本文本，其中， n为正整数；其中，所述将所述第二样本文本组中的每个第二样本文本输入预训练语言模型中，以生成第三样本文本组，包括：由所述预训练语言模型输出第 i个第二样本文本中的每个掩码标签的预测文本，其中， i为不大于n的正整数；将所述第i个第二样本文本中的掩码标签替换为所述第i个第二样本文本中的掩码标签的预测文本，生成所述第三样本文本组中的第i个第三样本文本。 3.根据权利要求2所述的方法，其中，所述将所述第i个第二样本文本中的掩码标签替换为所述第i个第二样本文本中的掩码标签的预测文本，生成所述第三样本文本组中的第i 个第三样本文本，包括：从所述第i个第二样本文本中的掩码标签的多个预测文本中筛选出目标预测文本；将所述第 i个第二样本文本中的掩码标签替换为所述目标预测文本，生成所述第 i个第三样本文本。 4.根据权利要求3所述的方法，其中，所述从所述第i个第二样本文本中的掩码标签的多个预测文本中筛选出目标预测文本，包括：确定所述第i个第二样本文本中的掩码标签对应的原始文本，并将所述原始文本从所述第i个第二样本文本中的掩码标签的多个预测文本中删除；获取所述第i个第二样本文本中的掩码标签的剩余的每个预测文本的预测概率；将最大预测概率对应的预测文本确定为所述目标预测文本。 5.根据权利要求1所述的方法，其中，所述基于所述第一样本文本组和所述第三样本文本组对初始模型进行训练，得到训练后的语义表示模型，包括：将所述第一样本文本组中的每个第一样本文本、所述第三样本文本组中的每个第三样本文本分别输入所述初始模型中，由所述初始模型输出每个第一样本文本的第一语义表示，并输出每个第三样本文本的第二语义表示；基于所述第一语义表示和所述第二语义表示，对所述初始模型进行训练，得到所述语义表示模型。 6.根据权利要求5所述的方法，其中，所述第一样本文本组包括n个第一样本文本，所述第三样本文本组包括n个第三样本文本，第 j个第三样本文本基于第 j个第一样本文本生成，其中， n为正整数， j为不大于n的正整数；其中，所述基于所述第一语义表示和所述第二语义表示，对所述初始模型进行训练，得权　利　要　求　书 1/3 页 2 CN 114970549 A 2到所述语义表示模型，包括：将所述第j个第三样本文本确定为所述第j个第一样本文本的正样本，以及将所述第j 个第三样本文本之外的其余第三样本文本确定为所述第j个第一样本文本的负样本；基于所述第j个第一样本文本的第一语义表示、所述第j个第一样本文本的正样本的第二语义表示、所述第j个第一样本文本的负样本的第二语义表示，对所述初始模型进行训练，得到所述语义表示模型。 7.根据权利要求6所述的方法，其中，所述基于所述第j个第一样本文本的第一语义表示、所述第j个第一样本文本的正样本的第二语义表示、所述第j个第一样本文本的负样本的第二语义表示，对所述初始模型进行训练，得到所述语义表示模型，包括：获取所述第j个第一样本文本的第一语义表示和所述第j个第一样本文本的正样本的第二语义表示之间的第一相似度，以及获取所述第j个第一样本文本的第一语义表示和所述第j个第一样本文本的负样本的第二语义表示之间的第二相似度；基于所述第一相似度和所述第二相似度，得到所述初始模型的损失函数；基于所述损失函数对所述初始模型的模型参数进行更新，得到所述语义表示模型。 8.根据权利要求1 ‑7任一项所述的方法，其中，所述初始模型为所述预训练语言模型。 9.一种语义表示模型的训练装置，包括：获取模块，用于获取未标注的第一样本文本组；第一生成模块，用于将所述第一样本文本组中的每个第一样本文本中的至少一个原始文本替换为掩码标签，以生成第二样本文本组；第二生成模块，用于将所述第二样本文本组中的每个第二样本文本输入预训练语言模型中，以生成第三样本文本组；训练模块，用于基于所述第一样本文本组和所述第三样本文本组对初始模型进行训练，得到训练后的语义表示模型。 10.根据权利要求9所述的装置，其中，所述第二样本文本组包括n个第二样本文本，其中， n为正整数；其中，所述第二生成模块，还用于：由所述预训练语言模型输出第 i个第二样本文本中的每个掩码标签的预测文本，其中， i为不大于n的正整数；将所述第i个第二样本文本中的掩码标签替换为所述第i个第二样本文本中的掩码标签的预测文本，生成所述第三样本文本组中的第i个第三样本文本。 11.根据权利要求10所述的装置，其中，所述第二生成模块，还用于：从所述第i个第二样本文本中的掩码标签的多个预测文本中筛选出目标预测文本；将所述第 i个第二样本文本中的掩码标签替换为所述目标预测文本，生成所述第 i个第三样本文本。 12.根据权利要求1 1所述的装置，其中，所述第二生成模块，还用于：确定所述第i个第二样本文本中的掩码标签对应的原始文本，并将所述原始文本从所述第i个第二样本文本中的掩码标签的多个预测文本中删除；获取所述第i个第二样本文本中的掩码标签的剩余的每个预测文本的预测概率；将最大预测概率对应的预测文本确定为所述目标预测文本。权　利　要　求　书 2/3 页 3 CN 114970549 A 3

专利 语义表示模型的训练方法、装置、电子设备和存储介质

专利语义表示模型的训练方法、装置、电子设备和存储介质