说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210748496.5 (22)申请日 2022.06.29 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 田鑫 陈泽裕  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 语义表示模型的训练方法、 装置、 电子设备 和存储介质 (57)摘要 本公开提供了一种语义表示模型的训练方 法、 装置、 电子设备和存储介质, 涉及人工智能技 术领域, 尤其涉及深度学习、 自然语言处理技术 领域。 具体实现方案为: 获取未标注的第一样本 文本组; 将第一样本文本组中的每个第一样本文 本中的至少一个原始文本替换为掩码标签, 以生 成第二样 本文本组; 将第二样 本文本组中的每个 第二样本文本输入预训练语言模 型中, 以生成第 三样本文本组; 基于第一样本文本组和第三样本 文本组对初始模 型进行训练, 得到训练后的语义 表示模型。 由此, 可基于无标注的第一样本文本 组, 自动生成第三样本文本组, 以对初始模型进 行训练, 适用于标注数据不足的应用场景, 有助 于提升语义表示模型的训练性能。 权利要求书3页 说明书12页 附图6页 CN 114970549 A 2022.08.30 CN 114970549 A 1.一种语义表示模型的训练方法, 包括: 获取未标注的第一样本文本组; 将所述第一样本文本组中的每个第一样本文本中的至少一个原始文本替换为掩码标 签, 以生成第二样本文本组; 将所述第二样本文本组中的每个第 二样本文本输入预训练语言模型中, 以生成第 三样 本文本组; 基于所述第 一样本文本组和所述第 三样本文本组对初始模型进行训练, 得到训练后的 语义表示模型。 2.根据权利要求1所述的方法, 其中, 所述第二样本文本组包括n个第二样本文本, 其 中, n为正整数; 其中, 所述将所述第二样本文本组中的每个第二样本文本输入预训练语言模型中, 以 生成第三样本文本组, 包括: 由所述预训练语言模型输出第 i个第二样本文本中的每个掩码标签的预测文本, 其中, i为不大于n的正整数; 将所述第i个第二样本文本中的掩码标签替换为所述第i个第二样本文本中的掩码标 签的预测文本, 生成所述第三样本文本组中的第i个第三样本文本 。 3.根据权利要求2所述的方法, 其中, 所述将所述第i个第二样本文本中的掩码标签替 换为所述第i个第二样本文本中的掩码标签的预测文本, 生成所述第三样本文本组中的第i 个第三样本文本, 包括: 从所述第i个第二样本文本中的掩码标签的多个预测文本中筛 选出目标 预测文本; 将所述第 i个第二样本文本中的掩码标签替换为所述目标预测文本, 生成所述第 i个第 三样本文本 。 4.根据权利要求3所述的方法, 其中, 所述从所述第i个第二样本文本中的掩码标签的 多个预测文本中筛 选出目标 预测文本, 包括: 确定所述第i个第二样本文本中的掩码标签对应的原始文本, 并将所述原始文本从所 述第i个第二样本文本中的掩码标签的多个预测文本中删除; 获取所述第i个第二样本文本中的掩码标签的剩余的每 个预测文本的预测概 率; 将最大预测概率对应的预测文本确定为所述目标 预测文本 。 5.根据权利要求1所述的方法, 其中, 所述基于所述第 一样本文本组和所述第 三样本文 本组对初始模型进行训练, 得到训练后的语义表示模型, 包括: 将所述第一样本文本组中的每个第 一样本文本、 所述第 三样本文本组中的每个第 三样 本文本分别输入所述初始模型中, 由所述初始模型输出每个第一样本文本的第一语义表 示, 并输出每 个第三样本文本的第二语义表示; 基于所述第一语义表示和所述第二语义表示, 对所述初始模型进行训练, 得到所述语 义表示模型。 6.根据权利要求5所述的方法, 其中, 所述第一样本文本组包括n个第 一样本文本, 所述 第三样本文本组包括n个第三样本文本, 第 j个第三样本文本基于第 j个第一样本文本生成, 其中, n为正整数, j为 不大于n的正整数; 其中, 所述基于所述第一语义表示和所述第二语义表示, 对所述初始模型进行训练, 得权 利 要 求 书 1/3 页 2 CN 114970549 A 2到所述语义表示模型, 包括: 将所述第j个第三样本文本确定为所述第j个第一样本文本的正样本, 以及将所述第j 个第三样本文本之外的其 余第三样本文本确定为所述第j个第一样本文本的负 样本; 基于所述第j个第一样本文本的第 一语义表示、 所述第j个第一样本文本的正样本的第 二语义表示、 所述第j个第一样本文本的负样本的第二语义表示, 对所述初始模型进行训 练, 得到所述语义表示模型。 7.根据权利要求6所述的方法, 其中, 所述基于所述第j个第一样本文本的第一语义表 示、 所述第j个第一样本文本的正样本的第二语义表示、 所述第j个第一样本文本的负样本 的第二语义表示, 对所述初始模型进行训练, 得到所述语义表示模型, 包括: 获取所述第j个第一样本文本的第一语义表示和所述第j个第一样本文本的正样本的 第二语义表示之间的第一相似度, 以及获取所述第j个第一样本文本的第一语义表示和所 述第j个第一样本文本的负 样本的第二语义表示之间的第二相似度; 基于所述第一相似度和所述第二相似度, 得到所述初始模型的损失函数; 基于所述损失函数对所述初始模型的模型参数进行 更新, 得到所述语义表示模型。 8.根据权利要求1 ‑7任一项所述的方法, 其中, 所述初始模型为所述预训练语言模型。 9.一种语义表示模型的训练装置, 包括: 获取模块, 用于获取 未标注的第一样本文本组; 第一生成模块, 用于将所述第 一样本文本组中的每个第 一样本文本 中的至少一个原始 文本替换为掩码标签, 以生成第二样本文本组; 第二生成模块, 用于将所述第 二样本文本组中的每个第 二样本文本输入预训练语言模 型中, 以生成第三样本文本组; 训练模块, 用于基于所述第一样本文本组和所述第三样本文本组对初始模型进行训 练, 得到训练后的语义表示模型。 10.根据权利要求9所述的装置, 其中, 所述第二样本文本组包括n个第二样本文本, 其 中, n为正整数; 其中, 所述第二 生成模块, 还用于: 由所述预训练语言模型输出第 i个第二样本文本中的每个掩码标签的预测文本, 其中, i为不大于n的正整数; 将所述第i个第二样本文本中的掩码标签替换为所述第i个第二样本文本中的掩码标 签的预测文本, 生成所述第三样本文本组中的第i个第三样本文本 。 11.根据权利要求10所述的装置, 其中, 所述第二 生成模块, 还用于: 从所述第i个第二样本文本中的掩码标签的多个预测文本中筛 选出目标 预测文本; 将所述第 i个第二样本文本中的掩码标签替换为所述目标预测文本, 生成所述第 i个第 三样本文本 。 12.根据权利要求1 1所述的装置, 其中, 所述第二 生成模块, 还用于: 确定所述第i个第二样本文本中的掩码标签对应的原始文本, 并将所述原始文本从所 述第i个第二样本文本中的掩码标签的多个预测文本中删除; 获取所述第i个第二样本文本中的掩码标签的剩余的每 个预测文本的预测概 率; 将最大预测概率对应的预测文本确定为所述目标 预测文本 。权 利 要 求 书 2/3 页 3 CN 114970549 A 3

.PDF文档 专利 语义表示模型的训练方法、装置、电子设备和存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 语义表示模型的训练方法、装置、电子设备和存储介质 第 1 页 专利 语义表示模型的训练方法、装置、电子设备和存储介质 第 2 页 专利 语义表示模型的训练方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。