专利语言模型的训练方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210555573.5 (22)申请日 2022.05.19 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人周洁　田乐　周霄　 (74)专利代理机构北京三高永信知识产权代理有限责任公司 1 1138 专利代理师祝亚男 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称语言模型的训练方法、装置、设备及存储介质 (57)摘要本申请公开了一种语言模型的训练方法、装置、设备及存储介质，涉及人工智能领域。方法包括：基于提示文本和样本文本构建第一输入文本，提示文本中包含样本标签，样本标签为样本文本的标签，第一输入文本中缺少样本标签；基于第一输入文本构建第二输入文本，第二输入文本与第一输入文本的语义一致，第二输入文本中包含样本标签，且缺少部分文本内容，其中，缺少的文本内容属于样本文本；基于第一输入文本和第二输入文本调整预训练语言模型，预训练语言模型用于基于输入文本的上下文信息预测输入文本中的缺失内容。本申请实施例方案有助于提高少样本场景下语言模型的训练质量。权利要求书3页说明书17页附图7页 CN 115114433 A 2022.09.27 CN 115114433 A 1.一种语言模型的训练方法，其特征在于，所述方法包括：基于提示文本和样本文本构建第一输入文本，所述提示文本中包含样本标签，所述样本标签为所述样本文本的标签，所述第一输入文本中缺少所述样本标签；基于所述第一输入文本构建第二输入文本，所述第二输入文本与所述第一输入文本的语义一致，所述第二输入文本中包含所述样本标签，且缺少部分文本内容，其中，缺少的文本内容属于所述样本文本；基于所述第一输入文本和所述第二输入文本调整预训练语言模型，所述预训练语言模型用于基于输入文本的上下文信息预测所述输入文本中的缺失内容。 2.根据权利要求1所述的方法，其特征在于，所述基于提示文本和样本文本构建第一输入文本，包括：将所述提示文本中的所述样本标签替换为第一掩码，得到掩码替换后的所述提示文本；对掩码替换后的所述提示文本和所述样本文本进行文本拼接，得到所述第一输入文本；所述基于所述第一输入文本构建第二输入文本，包括：将所述第一输入文本中的所述第一掩码替换为所述样本标签，以及将所述样本文本中的目标子文本替换为第二掩码，得到所述第二输入文本。 3.根据权利要求2所述的方法，其特征在于，所述基于所述第一输入文本和所述第二输入文本调整预训练语言模型，包括：通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测，得到第一预测结果；通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测，得到第二预测结果，所述第一预训练语言模型和所述第二预训练语言模型为孪生模型；基于所述样本标签和所述第一预测结果确定第一损失值；基于所述目标子文本和所述第二预测结果确定第二损失值；基于所述第一损失值和所述第二损失值，训练所述第一预训练语言模型和所述第二预训练语言模型。 4.根据权利要求2所述的方法，其特征在于，所述基于所述第一输入文本和所述第二输入文本调整预训练语言模型，包括：通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测，得到第一预测结果；通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测，得到第二预测结果，所述第一预训练语言模型和所述第二预训练语言模型为孪生模型；基于所述样本标签和所述第一预测结果确定第一损失值；基于所述目标子文本和所述第二预测结果确定第二损失值；基于第一语义特征和第二语义特征确定第三损失值，所述第一语义特征为所述第一预训练语言模型在预测过程中输出的中间层语义特征，所述第二语义特征为所述第二预训练语言模型在预测过程中输出的中间层语义特征；基于所述第一损失值、所述第二损失值以及所述第三损失值，训练所述第一预训练语权　利　要　求　书 1/3 页 2 CN 115114433 A 2言模型和所述第二预训练语言模型。 5.根据权利要求3或4所述的方法，其特征在于，所述通过第一预训练语言模型对所述第一输入文本中的所述第一掩码进行预测，得到第一预测结果，包括：通过所述第一预训练语言模型的隐藏层对所述第一输入文本进行特征提取，得到所述第一输入文本中子文本对应的子文本特征；基于所述第一掩码对应的子文本特征，通过所述第一预训练语言模型的输出头输出所述第一掩码对应的第一概率分布，所述第一概率分布用于表征所述第一掩码对应不同候选标签的概率。 6.根据权利要求3或4所述的方法，其特征在于，所述通过第二预训练语言模型对所述第二输入文本中的所述第二掩码进行预测，得到第二预测结果，包括：通过所述第二预训练语言模型的隐藏层对所述第二输入文本进行特征提取，得到所述第二输入文本中子文本对应的子文本特征；基于所述第二掩码对应的子文本特征，通过所述第二预训练语言模型的输出头输出所述第二掩码对应的第二概率分布，所述第二概率分布用于表征所述第二掩码对应不同候选词汇的概率。 7.根据权利要求4所述的方法，其特征在于，所述基于第一语义特征和第二语义特征确定第三损失值，包括：获取所述第一预训练语言模型中第k 隐藏层输出的所述第一语义特征，以及所述第二预训练语言模型中第k隐藏层输出的所述第二语义特征；从所述第一语义特征中确定所述第一掩码对应的第一掩码语义特征，以及从所述第二语义特征中确定所述样本标签对应的标签语义特征；从所述第二语义特征中确定所述第二掩码对应的第二掩码语义特征，以及从所述第一语义特征中确定所述目标子文本对应的子文本语义特征；基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征，确定所述第三损失值。 8.根据权利要求7所述的方法，其特征在于，所述基于所述第一掩码语义特征、所述标签语义特征、所述第二掩码语义特征以及所述子文本语义特征，确定所述第三损失值，包括：确定所述第一掩码语义特征与所述标签语义特征之间的第一特征距离；确定所述第二掩码语义特征与所述子文本语义特征之间的第二特征距离；基于所述第一特征距离和所述第二特征距离确定所述第三损失值。 9.根据权利要求2所述的方法，其特征在于，所述将所述样本文本中的目标子文本替换为第二掩码，包括：基于所述样本文本的文本长度，确定掩码数量，所述掩码数量与所述文本长度呈正相关关系；将所述样本文本中所述掩码数量的所述目标子文本替换为所述第二掩码。 10.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于提示模板和目标文本构建目标输入文本，所述提示模板中标签对应的位置采用第三掩码替代；权　利　要　求　书 2/3 页 3 CN 115114433 A 3

专利 语言模型的训练方法、装置、设备及存储介质

专利语言模型的训练方法、装置、设备及存储介质