专利 模型的训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111646700.4 (22)申请日 2021.12.2 9 (71)申请人科大讯飞华南人工智能研究院（广州）有限公司地址 510000 广东省广州市南沙区丰泽东路106号（自编1号楼） X13 01-G5145 (72)发明人许光辉　杜倩云　 (74)专利代理机构北京布瑞知识产权代理有限公司 11505 专利代理师朱彤妹 (51)Int.Cl. G06K 9/62(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称模型的训练方法及装置 (57)摘要本申请提供了一种模型的训练方法及装置，该模型的训练方法包括：基于输入数据获取融合特征信息，其中，融合特征信息融合了输入数据中包含的多模态信息；基于融合特征信息对模型进行多个基础任务的预训练，并对模型进行至少一个目标任务的训练以更新模型的参数。本申请的技术方案能够提高模型对多模态信息的处理能力，进而可以提高模型在目标任务上的性能。权利要求书2页说明书14页附图4页 CN 114492592 A 2022.05.13 CN 114492592 A 1.一种模型的训练方法，其特征在于，包括：基于输入数据获取融合特征信息，其中，所述融合特征信息融合了所述输入数据中包含的多模态信息；基于所述融合特征信息对模型进行多个基础任务的预训练，并对所述模型进行至少一个目标任务的训练以更新所述模型的参数。 2.根据权利要求1所述的模型的训练方法，其特征在于，所述基于所述融合特征信息对模型进行多个基础任务的预训练，包括：基于所述融合特征信息获取所述多个基础任务中每个基础任务对应的分类结果；基于所述多个基础任务对应的多个分类结果对所述模型进行预训练。 3.根据权利要求1所述的模型的训练方法，其特征在于，所述多个基础任务包括乱序重排任务、物体检测任务、文本识别任务以及语音识别任务中的至少两个。 4.根据权利要求1所述的模型的训练方法，其特征在于，所述输入数据包括至少一帧图像，其中，所述基于输入数据获取融合特征信息，包括：对所述至少一帧图像中的每帧图像进行分区以得到所述图像对应的多个区域；获取所述多个区域中每个区域对应的区域特征信息，所述区域特征信息融合了所述区域中包含的多模态信息，所述融合特征信息包括所述多个区域对应的多个区域特征信息。 5.根据权利要求4所述的模型的训练方法，其特征在于，所述基于输入数据获取融合特征信息，还包括：对所述多个区域中每个区域进行位置编码得到与所述区域的区域特征信息匹配的第一位置编码信息，所述融合特征信息还包括与所述多个区域特征信息匹配的多个第一位置编码信息。 6.根据权利要求5所述的模型的训练方法，其特征在于，所述多个基础任务包括乱序重排任务，其中，所述基于所述融合特征信息对模型进行多个基础任务的预训练，包括：对所述融合特征信息中的所述多个区域特征信息与所述多个第一位置编码信息进行乱序匹配以得到乱序特征信息，所述乱序特征信息包括所述多个区域特征信息以及与所述多个区域特征信息匹配的多个第二位置编码信息；基于所述乱序特征信息对所述模型进行所述乱序重排任务的预训练。 7.根据权利要求6所述的模型的训练方法，其特征在于，所述多个基础任务还包括物体检测任务和/或文本识别任务，其中，所述基于所述融合特征信息对模型进行多个基础任务的预训练，还包括：基于所述融合特征信息对所述模型进行所述物体检测任务和/或文本识别任务的预训练。 8.根据权利要求1所述的模型的训练方法，其特征在于，所述对所述模型进行至少一个目标任务的训练以更新所述模型的参数，包括：在预训练过程中，基于强化学习方法对所述模型进行所述至少一个目标任务的训练以更新所述模型的参数。 9.根据权利要求8所述的模型的训练方法，其特征在于，所述基于强化学习方法对所述模型进行所述至少一个目标任务的训练以更新所述模型的参数，包括：利用所述模型基于所述至少一个目标任务中每个目标任务对应的样本数据进行推理权　利　要　求　书 1/2 页 2 CN 114492592 A 2得到目标推理结果；基于预设评估指标对所述目标推理结果进行评估得到奖励信号；基于所述奖励信号更新所述模型的参数。 10.根据权利要求1所述的模型的训练方法，其特征在于，所述对所述模型进行至少一个目标任务的训练以更新所述模型的参数，包括：基于监督学习方法对所述模型进行所述至少一个目标任务的训练以更新所述模型的参数。 11.根据权利要求1至10中任一项所述的模型的训练方法，其特征在于，所述至少一个目标任务包括如下至少一个：视觉问答、版面分析、商品推荐、场景描述、图文检索。 12.一种模型的训练装置，其特征在于，包括：获取模块，用于基于输入数据获取融合特征信息，其中，所述融合特征信息融合了所述输入数据中包含的多模态信息；训练模块，用于基于所述融合特征信息对模型进行多个基础任务的预训练，并对所述模型进行至少一个目标任务的训练以更新所述模型的参数。 13.一种电子设备，其特征在于，包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器用于执行上述权利要求1至1 1中任一项所述的模型的训练方法。 14.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1至1 1中任一项所述的模型的训练方法。权　利　要　求　书 2/2 页 3 CN 114492592 A 3

专利 模型的训练方法及装置

专利模型的训练方法及装置