说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211248353.4 (22)申请日 2022.10.12 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 储琪 刘斌 俞能海 盛典墨  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 鄢功军 (51)Int.Cl. G06T 13/20(2011.01) G06T 13/40(2011.01) G06N 3/04(2006.01) G06V 20/40(2022.01) G06V 40/16(2022.01)G06V 10/82(2022.01) G10L 25/57(2013.01) G10L 25/30(2013.01) (54)发明名称 基于音频和图像驱动 的用于生成人脸说话 视频的训练方法 (57)摘要 本发明公开了一种基于音频和图像驱动 的 用于生成人脸说话视频的训练方法。 该方法包 括: 获取预设帧数的视频样本, 并构建人脸说话 视频生成模型; 利用音 频特征提取器对视频样本 的音频进行特征提取, 得到音频特征向量; 利用 图像编码器对视频样本进行 投影处理, 得到视频 图像的扩展潜在向量; 利用音频 ‑表情映射网络 处理音频特征向量和扩展潜在向量, 得到加权的 扩展潜在向量; 利用生成器处理加权的扩展潜在 向量, 得到生成视频。 本发明同时还提供了一种 基于音频和图像驱动的人类说话视频的生成方 法。 权利要求书2页 说明书14页 附图13页 CN 115330912 A 2022.11.11 CN 115330912 A 1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法, 包括: 获取预设帧数的视频样本, 并构建人脸说话视频生成模型, 其中, 所述人脸说话视频生 成模型包括音频特征提取器、 图像编 码器、 音频‑表情映射网络和生成器, 所述音频 ‑表情映 射网络包括音频编码器、 潜在向量编码器、 映射网络以及注意力模块; 利用所述音频特征提取器对所述视频样本的音频进行特征提取, 得到音频特征向量; 利用所述音频编码器将所述音频特征向量进行编码处理, 得到编码后的音频特征向量; 利 用所述图像编码器对所述视频样本进行投影处理, 得到视频图像的扩展潜在向量; 利用所 述潜在向量编 码器计算所述视频图像的扩展潜在向量的位移, 得到所述扩展潜在向量的位 移原点; 利用所述映射网络处理所述编 码后的音频特征向量和所述扩展潜在向量的位移原 点, 得到扩展潜在向量的位移信息; 利用所述注意力模块计算所述扩展潜在向量的位移信 息的线性组合, 得到加权的扩展潜在向量; 利用所述生成器处理所述加权的扩展潜在向量, 得到生成视频, 其中, 所述 生成器基于StyleGAN2模型构建; 利用损失函数处理所述生成视频、 与所述生成视频相对应的视频样本和所述扩展潜在 向量, 得到损失值, 并根据所述损失值, 优化所述人脸说话视频生成模型的参数; 迭代进行音频特征提取操作、 音频编码操作、 投影操作、 位移原点获取操作、 位移信息 获取操作、 加权的扩展潜在向量 获取操作、 生 成视频获取操作以及 优化操作, 直到所述损失 值满足预设条件, 得到训练完成的人脸说话视频生成模型。 2.根据权利要求1所述的训练方法, 其中, 利用所述音频特征提取器对所述视频样本的 音频进行 特征提取, 得到音频 特征向量包括: 利用所述音频特征提取器分别获取距离所述视频样本的目标帧之前和之后第一预设 时长的多个音频片段; 利用所述音频特征提取器的语音识别模型提取每个所述音频片段预设数量的逻辑单 元, 得到具有第二预设时长的多个逻辑单元, 其中, 任意两个逻辑单元所对应的音 频互不重 叠; 利用所述音频 特征提取器将所述逻辑单 元处理成第一预设维度的音频 特征向量; 其中, 所述音频特征提取器基于DeepSpeech构建, 所述音频特征提取器包括双向LSTM 网络、 多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。 3.根据权利要求1所述的训练方法, 其中, 利用所述音频编码器将所述音频特征向量进 行编码处 理, 得到编码后的音频 特征向量包括: 利用所述音频编码器将所述音频 特征向量进行转置, 得到转置后的音频 特征向量; 利用所述音频编码器对所述转置后的音频特征向量在时间维度 上进行一维时间卷积, 得到编码后的音频 特征向量; 其中, 所述音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层, 每个所 述一维卷积层包括偏置项和多个滤波器。 4.根据权利要求1所述的训练方法, 其中, 利用所述图像编码器对所述视频样本进行投 影处理, 得到视频图像的扩展潜在向量包括: 利用所述图像编码器处理所述视频样本, 得到线性输出向量, 并将所述线性输出向量 映射到具有第二预设维度的扩展潜在空间, 得到潜在向量; 利用所述图像编码器计算平均潜在向量的偏移量, 并将所述平均潜在向量的偏移量和权 利 要 求 书 1/2 页 2 CN 115330912 A 2所述潜在向量进行向量 运算, 得到所述扩展潜在向量; 其中, 所述图像编码器 基于ResNet18 构建; 其中, 所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样 本得到。 5.根据权利要求1所述的训练方法, 其中, 利用所述潜在向量编码器计算所述视频图像 的扩展潜在向量的位移, 得到所述扩展潜在向量的位移 原点包括: 获取所述视频样本 中事先设置的潜在向量的预设数量的主成分的分量, 并根据 所述预 设数量的主成分的分量, 初始化所述潜在向量编码器的参数; 利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信 息, 并将 所述特征信息映射到一维向量中得到所述扩展潜在向量的位移 原点。 6.根据权利要求1所述的训练方法, 其中, 所述映射网络包括多个第 一全连接层和多个 第二全连接层; 其中, 所述第一全连接层包括具有预设斜 率的LeakyReLU激活函数和AdaI N层。 7.根据权利要求1所述的训练方法, 其中, 所述注意力模块包括采用预设斜率的 LeakyReLU激活函数、 带有Softmax激活函数的全连接层和多个一维卷积层。 8.根据权利要求1所述的训练方法, 其中, 利用所述生成器处理所述加权的扩展潜在向 量, 得到生成视频包括: 利用所述生成器的StyleGAN2模型进行跳跃连接, 将具有不同尺寸的特征图引入所述 生成器; 利用所述 生成器通过多 级特征生成所述视频图像的细节特 征; 利用所述 生成器输入逐帧经 过所述位移信息调整后的潜在向量, 生成时序图像; 利用图像转换工具将所述时序图像进行转换, 得到所述 生成视频。 9.根据权利要求1所述的训练方法, 其中, 所述损失函数包括感知损失函数和加权均方 差损失函数。 10.一种基于音频和图像驱动的人脸说话视频生成方法, 包括: 利用训练完成的人脸说话视频生成模型处理目标人物的视频, 得到目标人物的人脸说 话生成视频, 其中, 所述训练完成的人脸说话生成模型由权利要求 1‑9任一所述的训练方法 训练得到 。权 利 要 求 书 2/2 页 3 CN 115330912 A 3

.PDF文档 专利 基于音频和图像驱动的用于生成人脸说话视频的训练方法

文档预览
中文文档 30 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于音频和图像驱动的用于生成人脸说话视频的训练方法 第 1 页 专利 基于音频和图像驱动的用于生成人脸说话视频的训练方法 第 2 页 专利 基于音频和图像驱动的用于生成人脸说话视频的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:20:12上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。