专利基于音频和图像驱动的用于生成人脸说话视频的训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211248353.4 (22)申请日 2022.10.12 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人储琪　刘斌　俞能海　盛典墨　 (74)专利代理机构中科专利商标代理有限责任公司 11021 专利代理师鄢功军 (51)Int.Cl. G06T 13/20(2011.01) G06T 13/40(2011.01) G06N 3/04(2006.01) G06V 20/40(2022.01) G06V 40/16(2022.01)G06V 10/82(2022.01) G10L 25/57(2013.01) G10L 25/30(2013.01) (54)发明名称基于音频和图像驱动的用于生成人脸说话视频的训练方法 (57)摘要本发明公开了一种基于音频和图像驱动的用于生成人脸说话视频的训练方法。该方法包括：获取预设帧数的视频样本，并构建人脸说话视频生成模型；利用音频特征提取器对视频样本的音频进行特征提取，得到音频特征向量；利用图像编码器对视频样本进行投影处理，得到视频图像的扩展潜在向量；利用音频 ‑表情映射网络处理音频特征向量和扩展潜在向量，得到加权的扩展潜在向量；利用生成器处理加权的扩展潜在向量，得到生成视频。本发明同时还提供了一种基于音频和图像驱动的人类说话视频的生成方法。权利要求书2页说明书14页附图13页 CN 115330912 A 2022.11.11 CN 115330912 A 1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法，包括：获取预设帧数的视频样本，并构建人脸说话视频生成模型，其中，所述人脸说话视频生成模型包括音频特征提取器、图像编码器、音频‑表情映射网络和生成器，所述音频 ‑表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块；利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量；利用所述音频编码器将所述音频特征向量进行编码处理，得到编码后的音频特征向量；利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量；利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点；利用所述映射网络处理所述编码后的音频特征向量和所述扩展潜在向量的位移原点，得到扩展潜在向量的位移信息；利用所述注意力模块计算所述扩展潜在向量的位移信息的线性组合，得到加权的扩展潜在向量；利用所述生成器处理所述加权的扩展潜在向量，得到生成视频，其中，所述生成器基于StyleGAN2模型构建；利用损失函数处理所述生成视频、与所述生成视频相对应的视频样本和所述扩展潜在向量，得到损失值，并根据所述损失值，优化所述人脸说话视频生成模型的参数；迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作，直到所述损失值满足预设条件，得到训练完成的人脸说话视频生成模型。 2.根据权利要求1所述的训练方法，其中，利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量包括：利用所述音频特征提取器分别获取距离所述视频样本的目标帧之前和之后第一预设时长的多个音频片段；利用所述音频特征提取器的语音识别模型提取每个所述音频片段预设数量的逻辑单元，得到具有第二预设时长的多个逻辑单元，其中，任意两个逻辑单元所对应的音频互不重叠；利用所述音频特征提取器将所述逻辑单元处理成第一预设维度的音频特征向量；其中，所述音频特征提取器基于DeepSpeech构建，所述音频特征提取器包括双向LSTM 网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。 3.根据权利要求1所述的训练方法，其中，利用所述音频编码器将所述音频特征向量进行编码处理，得到编码后的音频特征向量包括：利用所述音频编码器将所述音频特征向量进行转置，得到转置后的音频特征向量；利用所述音频编码器对所述转置后的音频特征向量在时间维度上进行一维时间卷积，得到编码后的音频特征向量；其中，所述音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层，每个所述一维卷积层包括偏置项和多个滤波器。 4.根据权利要求1所述的训练方法，其中，利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量包括：利用所述图像编码器处理所述视频样本，得到线性输出向量，并将所述线性输出向量映射到具有第二预设维度的扩展潜在空间，得到潜在向量；利用所述图像编码器计算平均潜在向量的偏移量，并将所述平均潜在向量的偏移量和权　利　要　求　书 1/2 页 2 CN 115330912 A 2所述潜在向量进行向量运算，得到所述扩展潜在向量；其中，所述图像编码器基于ResNet18 构建；其中，所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样本得到。 5.根据权利要求1所述的训练方法，其中，利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点包括：获取所述视频样本中事先设置的潜在向量的预设数量的主成分的分量，并根据所述预设数量的主成分的分量，初始化所述潜在向量编码器的参数；利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信息，并将所述特征信息映射到一维向量中得到所述扩展潜在向量的位移原点。 6.根据权利要求1所述的训练方法，其中，所述映射网络包括多个第一全连接层和多个第二全连接层；其中，所述第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaI N层。 7.根据权利要求1所述的训练方法，其中，所述注意力模块包括采用预设斜率的 LeakyReLU激活函数、带有Softmax激活函数的全连接层和多个一维卷积层。 8.根据权利要求1所述的训练方法，其中，利用所述生成器处理所述加权的扩展潜在向量，得到生成视频包括：利用所述生成器的StyleGAN2模型进行跳跃连接，将具有不同尺寸的特征图引入所述生成器；利用所述生成器通过多级特征生成所述视频图像的细节特征；利用所述生成器输入逐帧经过所述位移信息调整后的潜在向量，生成时序图像；利用图像转换工具将所述时序图像进行转换，得到所述生成视频。 9.根据权利要求1所述的训练方法，其中，所述损失函数包括感知损失函数和加权均方差损失函数。 10.一种基于音频和图像驱动的人脸说话视频生成方法，包括：利用训练完成的人脸说话视频生成模型处理目标人物的视频，得到目标人物的人脸说话生成视频，其中，所述训练完成的人脸说话生成模型由权利要求 1‑9任一所述的训练方法训练得到。权　利　要　求　书 2/2 页 3 CN 115330912 A 3

专利 基于音频和图像驱动的用于生成人脸说话视频的训练方法

专利基于音频和图像驱动的用于生成人脸说话视频的训练方法