说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210555573.5 (22)申请日 2022.05.19 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 周洁 田乐 周霄  (74)专利代理 机构 北京三高永信知识产权代理 有限责任公司 1 1138 专利代理师 祝亚男 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 语言模型的训练方法、 装置、 设备及存储介 质 (57)摘要 本申请公开了一种语 言模型的训练方法、 装 置、 设备及存储介质, 涉及人工智能领域。 方法包 括: 基于提示文本和样本文本构建第一输入文 本, 提示文本中包含样本标签, 样本标签为样本 文本的标签, 第一输入文本中缺少样本标签; 基 于第一输入文本构建第二输入文本, 第二输入文 本与第一输入文本的语义一致, 第二输入文本中 包含样本标签, 且缺少部分文本内容, 其中, 缺少 的文本内容属于样本文本; 基于第一输入文本和 第二输入文本调整预训练语言模 型, 预训练语言 模型用于基于输入文本的上下文信息预测输入 文本中的缺失内容。 本申请实施例方案有助于提 高少样本场景 下语言模型的训练质量。 权利要求书3页 说明书17页 附图7页 CN 115114433 A 2022.09.27 CN 115114433 A 1.一种语言模型的训练方法, 其特 征在于, 所述方法包括: 基于提示文本和样本文本构建第一输入文本, 所述提示文本中包含样本标签, 所述样 本标签为所述样本文本的标签, 所述第一输入文本中缺少所述样本标签; 基于所述第 一输入文本构建第 二输入文本, 所述第 二输入文本与所述第 一输入文本的 语义一致, 所述第二输入文本中包含所述样本标签, 且缺少 部分文本内容, 其中, 缺少的文 本内容属于所述样本文本; 基于所述第 一输入文本和所述第 二输入文本调 整预训练语言模型, 所述预训练语言模 型用于基于 输入文本的上 下文信息预测所述输入文本中的缺失内容。 2.根据权利要求1所述的方法, 其特征在于, 所述基于提示文本和样本文本构建第 一输 入文本, 包括: 将所述提示文本中的所述样本标签替换为第一掩码, 得到掩码替换后的所述提示文 本; 对掩码替换后的所述提示文本和所述样本文本进行文本拼接, 得到所述第一输入文 本; 所述基于所述第一输入文本构建第二输入文本, 包括: 将所述第一输入文本中的所述第 一掩码替换为所述样本标签, 以及将所述样本文本中 的目标子文本替换为第二掩码, 得到所述第二输入文本 。 3.根据权利要求2所述的方法, 其特征在于, 所述基于所述第 一输入文本和所述第 二输 入文本调整预训练语言模型, 包括: 通过第一预训练语言模型对所述第 一输入文本 中的所述第 一掩码进行预测, 得到第 一 预测结果; 通过第二预训练语言模型对所述第 二输入文本 中的所述第 二掩码进行预测, 得到第 二 预测结果, 所述第一预训练语言模型和所述第二预训练语言模型为孪生模型; 基于所述样本标签和所述第一预测结果确定第一损失值; 基于所述目标子文本和所述第二预测结果确定第二损失值; 基于所述第 一损失值和所述第 二损失值, 训练所述第 一预训练语言模型和所述第 二预 训练语言模型。 4.根据权利要求2所述的方法, 其特征在于, 所述基于所述第 一输入文本和所述第 二输 入文本调整预训练语言模型, 包括: 通过第一预训练语言模型对所述第 一输入文本 中的所述第 一掩码进行预测, 得到第 一 预测结果; 通过第二预训练语言模型对所述第 二输入文本 中的所述第 二掩码进行预测, 得到第 二 预测结果, 所述第一预训练语言模型和所述第二预训练语言模型为孪生模型; 基于所述样本标签和所述第一预测结果确定第一损失值; 基于所述目标子文本和所述第二预测结果确定第二损失值; 基于第一语义特征和第 二语义特征确定第 三损失值, 所述第 一语义特征为所述第 一预 训练语言模型在预测过程中输出的中间层语义特征, 所述第二语义特征为所述第二预训练 语言模型在预测过程中输出的中间层语义特 征; 基于所述第一损 失值、 所述第二损 失值以及所述第三损 失值, 训练所述第一预训练语权 利 要 求 书 1/3 页 2 CN 115114433 A 2言模型和所述第二预训练语言模型。 5.根据权利要求3或4所述的方法, 其特征在于, 所述通过第一预训练语言模型对所述 第一输入文本中的所述第一掩码进行 预测, 得到第一预测结果, 包括: 通过所述第 一预训练语言模型的隐藏层对所述第 一输入文本进行特征提取, 得到所述 第一输入文本中子文本对应的子文本特 征; 基于所述第 一掩码对应的子文本特征, 通过所述第 一预训练语言模型的输出头输出所 述第一掩码对应的第一概率分布, 所述第一概率分布用于表征所述第一掩码对应不同候选 标签的概 率。 6.根据权利要求3或4所述的方法, 其特征在于, 所述通过第二预训练语言模型对所述 第二输入文本中的所述第二掩码进行 预测, 得到第二预测结果, 包括: 通过所述第 二预训练语言模型的隐藏层对所述第 二输入文本进行特征提取, 得到所述 第二输入文本中子文本对应的子文本特 征; 基于所述第 二掩码对应的子文本特征, 通过所述第 二预训练语言模型的输出头输出所 述第二掩码对应的第二概率分布, 所述第二概率分布用于表征所述第二掩码对应不同候选 词汇的概 率。 7.根据权利要求4所述的方法, 其特征在于, 所述基于第 一语义特征和第 二语义特征确 定第三损失值, 包括: 获取所述第一预训练语言模型中第k 隐藏层输出的所述第一语义特征, 以及所述第二 预训练语言模型中第k隐藏层输出的所述第二语义特 征; 从所述第一语义特征中确定所述第 一掩码对应的第 一掩码语义特征, 以及从所述第 二 语义特征中确定所述样本标签对应的标签 语义特征; 从所述第二语义特征中确定所述第 二掩码对应的第 二掩码语义特征, 以及从所述第 一 语义特征中确定所述目标子文本对应的子文本语义特 征; 基于所述第一掩码语义特征、 所述标签语义特征、 所述第二掩码语义特征以及所述子 文本语义特 征, 确定所述第三损失值。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述第一掩码语义特征、 所述标 签语义特征、 所述第二掩码语义特征以及所述子文本语义特征, 确定所述第三损失值, 包 括: 确定所述第一掩码语义特 征与所述标签 语义特征之间的第一特 征距离; 确定所述第二掩码语义特 征与所述子文本语义特 征之间的第二特 征距离; 基于所述第一特 征距离和所述第二特 征距离确定所述第三损失值。 9.根据权利要求2所述的方法, 其特征在于, 所述将所述样本文本 中的目标子文本替换 为第二掩码, 包括: 基于所述样本文本的文本长度, 确定掩码数量, 所述掩码数量与所述文本长度呈正相 关关系; 将所述样本文本中所述掩码数量的所述目标子文本替换为所述第二掩码。 10.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于提示模板和目标文本构建目标输入文本, 所述提示模板 中标签对应的位置采用第 三掩码替代;权 利 要 求 书 2/3 页 3 CN 115114433 A 3

.PDF文档 专利 语言模型的训练方法、装置、设备及存储介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语言模型的训练方法、装置、设备及存储介质 第 1 页 专利 语言模型的训练方法、装置、设备及存储介质 第 2 页 专利 语言模型的训练方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。