说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210589947.5 (22)申请日 2022.05.26 (71)申请人 北京有竹居网络技 术有限公司 地址 101299 北京市平谷区林荫北街13号 信息大厦802室 (72)发明人 曾妍 周王春澍 罗傲 张新松  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 专利代理师 唐博 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06F 40/126(2020.01) G06F 40/30(2020.01)G06F 40/40(2020.01) G06N 5/04(2006.01) (54)发明名称 多语言多模态预训练模 型的训练方法、 装置 及电子设备 (57)摘要 本公开涉及一种多语言多模态预训练模型 的训练方法、 装置及电子设备, 尤其涉及机器学 习技术领域。 该方法包括: 获取配对样本集, 配对 样本集中包括: 图像与目标文本的图文配对数 据, 以及第一语 言文本与第二语言文本的平行配 对数据; 将配对样本集, 基于统一多语言多模态 模型框架进行预训练, 以得到多语 言多模态预训 练模型; 其中, 目标文本为任意语言类型, 第一语 言文本与第二语言文本的语言类型不同。 权利要求书2页 说明书14页 附图5页 CN 114970721 A 2022.08.30 CN 114970721 A 1.一种多语言多模态预训练模型的训练方法, 其特 征在于, 包括: 获取配对样本集, 所述配对样本集中包括: 图像与目标文本的图文配对数据, 以及第一 语言文本与第二语言文本的平行配对数据; 将所述配对样本集, 基于统一多语言多模态模型框架进行预训练, 以得到多语言多模 态预训练模型; 其中, 所述目标文本为任意语言类型, 所述第一语言文本与所述第二语言文本的语言 类型不同。 2.根据权利要求1所述的方法, 其特征在于, 所述将所述配对样本集, 基于统一多语言 多模态模型框架进行 预训练, 以得到多语言多模态预训练模型, 包括: 将所述图文配对数据和所述平行配对数据, 交替基于统一多语言多模态模型框架进行 预训练, 以得到所述多语言多模态预训练模型。 3.根据权利要求1所述的方法, 其特征在于, 将所述配对样本集, 基于所述统一多语言 多模态模型框架进行 预训练的训练目标, 包括: 针对目标配对数据的对比学习; 和/或, 所述目标配对数据中包括被掩码文本, 针对目标配对数据中的被掩码文本进行复原; 其中, 所述目标配对数据包括所述图文配对数据或所述平行配对数据。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述将所述配对样本集, 基于统 一多语言多模态模型框架进行 预训练, 以得到多语言多模态预训练模型, 包括: 对目标配对数据进行编码, 得到第一编码信息和第二编码信息, 所述目标配对数据包 括所述图文配对数据或所述平行配对数据; 将所述第一编码信息和所述第二编码信息输入N层特征融合模型, N为大于或等于1的 整数; 将所述N层特征融合模型的第 一输出结果输入线性层进行处理, 得到第 一处理结果, 基 于所述第一处 理结果和第一损失函数, 确定第一损失参数; 基于所述第一损失参数, 更新所述统一多语言多模态模型框架的模型参数。 5.根据权利要求4所述的方法, 其特征在于, 所述第 一损失函数包括: 匹配损失函数和/ 或基于条件的掩膜语言模型C MLM损失函数。 6.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括: 基于所述第一编码信息、 所述第二编码信息以及第二损失函数, 确定第二损失参数; 基于所述第二损失参数, 更新所述统一多语言多模态模型框架的模型参数。 7.根据权利要求6所述的方法, 其特 征在于, 所述第二损失函数为对比学习损失函数。 8.根据权利要求 4所述的方法, 其特 征在于, 所述目标配对数据为所述图文配对数据, 所述第一编码信息为所述图像的编码信息, 所述第二编码信息为所述目标文本的编码信息; 所述目标配对数据为所述平行配对数据, 所述第 一编码信 息为所述第 一语言文本的编 码信息, 所述第二编码信息为所述第二语言文本的编码信息 。 9.一种多语言多模态预训练模型的训练装置, 其特 征在于, 包括: 获取模块, 用于获取配对样本集, 所述配对样本集中包括: 图像与目标文本的图文配对权 利 要 求 书 1/2 页 2 CN 114970721 A 2数据, 以及第一语言文本与第二语言文本的平行配对数据; 预训练模块, 用于将所述配对样本集, 基于统一多语言多模态模型框架进行预训练, 以 得到多语言多模态预训练模型; 其中, 所述目标文本为任意语言类型, 所述第一语言文本与所述第二语言文本的语言 类型不同。 10.根据权利要求9所述的装置, 其特 征在于, 所述预训练模块包括: 编码器, 用于对目标配对数据进行编码, 得到第 一编码信 息和第二编码信息, 所述目标 配对数据包括所述图文配对数据或所述平行配对数据; N层特征融合模型, 用于接收输入的所述第一编码信息和所述第二编码信息, 并输出第 一输入结果, N 为大于或等于1的整数; 线性层, 用于 接收第一输出 结果, 并根据所述第一输出 结果处理得到第一处 理结果; 损失计算模块, 用于基于所述第一处 理结果和第一损失函数, 确定第一损失参数; 更新模块, 用于基于所述第一损 失参数, 更新所述统一多语言多模态模型框架 的模型 参数。 11.一种电子设备, 其特征在于, 包括: 处理器、 存储器及存储在所述存储器上并可在所 述处理器上运行的计算机程序, 所述计算机程序被所述处理器执行时实现如权利要求 1至8 中任一项所述的多语言多模态预训练模型的训练方法。 12.一种计算机可读存储介质, 其特征在于, 包括: 所述计算机可读存储介质上存储计 算机程序, 所述计算机程序被处理器执行时实现如权利要求 1至8中任一项所述的多语言多 模态预训练模型的训练方法。权 利 要 求 书 2/2 页 3 CN 114970721 A 3

.PDF文档 专利 多语言多模态预训练模型的训练方法、装置及电子设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多语言多模态预训练模型的训练方法、装置及电子设备 第 1 页 专利 多语言多模态预训练模型的训练方法、装置及电子设备 第 2 页 专利 多语言多模态预训练模型的训练方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:55上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。