专利多语言多模态预训练模型的训练方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210589947.5 (22)申请日 2022.05.26 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人曾妍　周王春澍　罗傲　张新松　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师唐博 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06F 40/126(2020.01) G06F 40/30(2020.01)G06F 40/40(2020.01) G06N 5/04(2006.01) (54)发明名称多语言多模态预训练模型的训练方法、装置及电子设备 (57)摘要本公开涉及一种多语言多模态预训练模型的训练方法、装置及电子设备，尤其涉及机器学习技术领域。该方法包括：获取配对样本集，配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；将配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；其中，目标文本为任意语言类型，第一语言文本与第二语言文本的语言类型不同。权利要求书2页说明书14页附图5页 CN 114970721 A 2022.08.30 CN 114970721 A 1.一种多语言多模态预训练模型的训练方法，其特征在于，包括：获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对数据，以及第一语言文本与第二语言文本的平行配对数据；将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；其中，所述目标文本为任意语言类型，所述第一语言文本与所述第二语言文本的语言类型不同。 2.根据权利要求1所述的方法，其特征在于，所述将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：将所述图文配对数据和所述平行配对数据，交替基于统一多语言多模态模型框架进行预训练，以得到所述多语言多模态预训练模型。 3.根据权利要求1所述的方法，其特征在于，将所述配对样本集，基于所述统一多语言多模态模型框架进行预训练的训练目标，包括：针对目标配对数据的对比学习；和/或，所述目标配对数据中包括被掩码文本，针对目标配对数据中的被掩码文本进行复原；其中，所述目标配对数据包括所述图文配对数据或所述平行配对数据。 4.根据权利要求1至3任一项所述的方法，其特征在于，所述将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型，包括：对目标配对数据进行编码，得到第一编码信息和第二编码信息，所述目标配对数据包括所述图文配对数据或所述平行配对数据；将所述第一编码信息和所述第二编码信息输入N层特征融合模型， N为大于或等于1的整数；将所述N层特征融合模型的第一输出结果输入线性层进行处理，得到第一处理结果，基于所述第一处理结果和第一损失函数，确定第一损失参数；基于所述第一损失参数，更新所述统一多语言多模态模型框架的模型参数。 5.根据权利要求4所述的方法，其特征在于，所述第一损失函数包括：匹配损失函数和/ 或基于条件的掩膜语言模型C MLM损失函数。 6.根据权利要求 4所述的方法，其特征在于，所述方法还包括：基于所述第一编码信息、所述第二编码信息以及第二损失函数，确定第二损失参数；基于所述第二损失参数，更新所述统一多语言多模态模型框架的模型参数。 7.根据权利要求6所述的方法，其特征在于，所述第二损失函数为对比学习损失函数。 8.根据权利要求 4所述的方法，其特征在于，所述目标配对数据为所述图文配对数据，所述第一编码信息为所述图像的编码信息，所述第二编码信息为所述目标文本的编码信息；所述目标配对数据为所述平行配对数据，所述第一编码信息为所述第一语言文本的编码信息，所述第二编码信息为所述第二语言文本的编码信息。 9.一种多语言多模态预训练模型的训练装置，其特征在于，包括：获取模块，用于获取配对样本集，所述配对样本集中包括：图像与目标文本的图文配对权　利　要　求　书 1/2 页 2 CN 114970721 A 2数据，以及第一语言文本与第二语言文本的平行配对数据；预训练模块，用于将所述配对样本集，基于统一多语言多模态模型框架进行预训练，以得到多语言多模态预训练模型；其中，所述目标文本为任意语言类型，所述第一语言文本与所述第二语言文本的语言类型不同。 10.根据权利要求9所述的装置，其特征在于，所述预训练模块包括：编码器，用于对目标配对数据进行编码，得到第一编码信息和第二编码信息，所述目标配对数据包括所述图文配对数据或所述平行配对数据； N层特征融合模型，用于接收输入的所述第一编码信息和所述第二编码信息，并输出第一输入结果， N 为大于或等于1的整数；线性层，用于接收第一输出结果，并根据所述第一输出结果处理得到第一处理结果；损失计算模块，用于基于所述第一处理结果和第一损失函数，确定第一损失参数；更新模块，用于基于所述第一损失参数，更新所述统一多语言多模态模型框架的模型参数。 11.一种电子设备，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求 1至8 中任一项所述的多语言多模态预训练模型的训练方法。 12.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求 1至8中任一项所述的多语言多模态预训练模型的训练方法。权　利　要　求　书 2/2 页 3 CN 114970721 A 3

专利 多语言多模态预训练模型的训练方法、装置及电子设备

专利多语言多模态预训练模型的训练方法、装置及电子设备