专利模型训练方法、图像生成方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210597992.5 (22)申请日 2022.05.30 (71)申请人京东科技信息技术有限公司地址 100176 北京市大兴区经济技术开发区科创十一街18号院2号楼6层6 01 (72)发明人沈力　郑贺亮　陶大程　 (74)专利代理机构北京英赛嘉华知识产权代理有限责任公司 1 1204 专利代理师王达佐　马晓亚 (51)Int.Cl. G06T 11/60(2006.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称模型训练方法、图像生成方法和装置 (57)摘要本公开的实施例提供了一种模型训练方法、图像生成方法和装置。所述的模型训练方法包括：首先获取训练样本集，训练样本集包括样本输入图像、样本参考图像和期望图像，然后构建初始模型，该初始模型包括第一初始编码器、第二初始编码器和基于层级架构的多层级生成器，最后利用机器学习方法，将样本输入图像作为第一初始编码器的输入，样本参考图像作为第二初始编码器的输入，并将第一初始编码器和第二初始编码器的输出作为多层级生成器的输入，期望图像作为期望输出，对初始模型进行训练，得到图像生成模型，基于样本输入图像和样本参考图像进行训练，训练得到一种能够基于输入图像和参考图像进行处理得到输出图像的图像生成模型。权利要求书4页说明书23页附图7页 CN 114926568 A 2022.08.19 CN 114926568 A 1.一种模型训练方法，所述方法包括：获取训练样本集，其中，所述训练样本集包括样本输入图像、样本参考图像和期望图像；构建初始模型，其中，所述初始模型包括第一初始编码器、第二初始编码器和基于层级架构的多层级生成器；利用机器学习方法，将所述样本输入图像作为所述第一初始编码器的输入，所述样本参考图像作为所述第二初始编码器的输入，并将所述第一初始编码器和所述第二初始编码器的输出作为所述多层级生成器的输入，所述期望图像作为期望输出，对所述初始模型进行训练，得到图像生成模型。 2.根据权利要求1所述的方法，其中，所述多层级生成器中每层生成器基于预训练的多层级生成网络构建得到，所述每层生成器包括预训练的、用于处理第一空间中的特征向量的第一模块；以及，所述利用机器学习方法，将所述样本输入图像作为所述第一初始编码器的输入，所述样本参考图像作为所述第二初始编码器的输入，并将所述第一初始编码器和所述第二初始编码器的输出作为所述多层级生成器的输入，所述期望图像作为期望输出，对所述初始模型进行训练，得到图像生成模型，包括：将所述样本输入图像作为所述第一初始编码器的输入，所述样本参考图像作为所述第二初始编码器的输入；将所述第一初始编码器和所述第二初始编码器的输出结果输入至每层生成器中的第一模块，所述期望图像作为期望输出，利用机器学习方法对所述第一初始编码器和所述第二初始编码器进行训练，得到第一编码器和第二编码器；将所述第一编码器、所述第二编码器和包括所述第一模块的多层级生成器确定为所述图像生成模型。 3.根据权利要求2所述的方法，其中，所述多层级生成器中预设层生成器还包括用于处理第二空间中的特征向量的第二初始模块；以及，所述方法还包括：获取所述样本参考图像对应的样本特征金字塔，其中，所述样本特征金字塔包括多个尺度的样本特征图；将所述样本输入图像作为所述第一编码器的输入，所述样本参考图像作为所述第二编码器的输入；将所述第一编码器和所述第二编码器的输出结果输入至每层生成器中的第一模块；将所述预设层生成器的上一层生成器的输出结果和所述样本特征金字塔输入至所述第二初始模块，所述期望图像作为期望输出，利用机器学习方法对所述第二初始模块进行训练，得到第二模块；以及所述将所述第一编码器、所述第二编码器和包括所述第一模块的多层级生成器确定为所述图像生成模型，包括：将所述第一编码器、所述第二编码器、包括所述第一模块和所述第二模块的多层级生成器确定为所述图像生成模型。 4.根据权利要求3所述的方法，其中，所述第二初始模块包括特征选择层、特征融合层和Transformer；以及权　利　要　求　书 1/4 页 2 CN 114926568 A 2所述将所述预设层生成器的上一层生成器的输出结果和所述样本特征金字塔输入至所述第二初始模块，所述期望图像作为期望输出，利用机器学习方法对所述第二初始模块进行训练，得到第二模块，包括：将所述样本参考图像对应的样本特征金字塔作为所述特征融合层的输入，所述预设层生成器的上一层生成器的输出结果和所述样本输入图像对应的输入特征作为所述特征选择层的输入，并将所述特征融合层和所述特征选择层的输出作为所述Transformer的输入；将所述Transformer的输出和所述第一编码器和所述第二编码器的输出结果输入至所述预设层生成器中的第一模块；将所述期望图像作为期望输出，利用机器学习方法对所述预设层生成器中的第二初始模块进行训练，得到所述第二模块。 5.根据权利要求1所述的方法，其中，所述利用机器学习方法，将所述样本输入图像作为所述第一初始编码器的输入，所述样本参考图像作为所述第二初始编码器的输入，并将所述第一初始编码器和所述第二初始编码器的输出作为所述多层级生成器的输入，所述期望图像作为期望输出，对所述初始模型进行训练，得到图像生成模型，包括：将所述样本输入图像作为所述第一初始编码器的输入，所述样本参考图像作为所述第二初始编码器的输入，并将所述第一初始编码器和所述第二初始编码器的输出作为所述多层级生成器的输入，得到所述多层级生成器的生成图像；基于所述生成图像和所述期望图像，确定表征图像像素特征的第一损失函数；基于所述第一损失函数调整所述初始模型，得到所述图像生成模型。 6.根据权利要求5所述的方法，其中，所述方法还包括：基于所述生成图像和所述期望图像，确定第二损失函数，其中，所述第二损失函数包括以下至少一项：表征图像感知特征的感知损失函数、表征图像标识特征的损失函数和正则化损失函数；以及所述基于所述第一损失函数调整所述初始模型，得到所述图像生成模型，包括：基于所述第一损失函数和所述第二损失函数调整所述初始模型，得到所述图像生成模型。 7.一种图像生成方法，所述方法包括：响应于获取到输入图像和参考图像，将所述输入图像和参考图像输入至图像生成模型，其中，所述图像生成模型包括第一编码器、第二编码器和基于层级架构的多层级生成器；通过所述第一编码器对所述输入图像进行编码映射，得到所述输入图像对应的第一空间输入向量；通过所述第二编码器对所述参考图像进行编码映射，得到所述参考图像对应的第一空间参考向量；将所述第一空间输入向量和所述第一空间参考向量输入至所述多层级生成器中，生成所述输入图像和所述参考图像对应的目标图像，其中，所述图像生成模型基于权利要求 1‑6 任意一项方法获取。 8.根据权利要求7所述的方法，其中，所述多层级生成器中每层生成器包括预训练的、用于处理第一空间中的特征向量的第一模块，并且预设层生成器还包括用于处理第二空间权　利　要　求　书 2/4 页 3 CN 114926568 A 3

专利 模型训练方法、图像生成方法和装置

专利模型训练方法、图像生成方法和装置