说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210541984.9 (22)申请日 2022.05.18 (71)申请人 京东科技控股 股份有限公司 地址 100176 北京市大兴区北京经济技 术 开发区科创十一 街18号C座2层2 21室 (72)发明人 王林芳 张炜 石凡 张琪 申童  左佳伟 梅涛  (74)专利代理 机构 中国贸促会专利商标事务所 有限公司 1 1038 专利代理师 许蓓 (51)Int.Cl. G06V 40/16(2022.01) G06T 3/40(2006.01) G06V 20/40(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) (54)发明名称 数字人生成方法和装置及存 储介质 (57)摘要 本公开提出一种数字人生成方法和装置及 存储介质, 涉及计算机技术领域。 该方法包括: 获 取第一视频; 根据交互场景相应的人物定制信 息, 对第一视频中的各帧图像中的人物进行编辑 处理; 根据处理后的第一视频中的各帧图像, 输 出第二视频。 根据交互场景相应的人物定制信息 对视频中的人物进行编辑处理, 通过人物编辑生 成与交互场景匹配的数字人视频。 权利要求书6页 说明书18页 附图6页 CN 114863533 A 2022.08.05 CN 114863533 A 1.一种数字人生成方法, 其特 征在于, 包括: 获取第一视频; 根据交互场景相应的人物定制信息, 对第一视频中的各帧图像中的人物进行编辑处 理; 根据处理后的第一视频中的各帧图像, 输出第二视频。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一视频是由原视频经过预处理得到 的, 所述预处 理包括分辨 率调整、 帧间平 滑处理、 帧率调整中的一项或多 项。 3.根据权利要求2所述的方法, 其特 征在于, 所述分辨 率调整包括: 如果原视频的分辨率高于要求的预设分辨率, 按照预设分辨率对原视频进行降采样, 得到预设 分辨率的第一视频; 如果原视频的分辨率低于要求的预设分辨率, 利用超分辨率模型对原视频进行处理, 得到预设分辨率的第一视频, 所述超分辨率模型用于将输入视频的分辨率提升至预设分辨 率。 4.根据权利要求3所述的方法, 其特征在于, 所述超分辨率模型是由神经网络经过训练 得到的, 在训练过程中, 将来自高清视频的第一视频帧按照预设分辨率进行降采样得到第 二视频帧, 将第二视频帧作为神经网络的输入, 将第一视频帧作为神经网络的输出 的监督 信息, 对神经网络进行训练得到超分辨 率模型。 5.根据权利要求2所述的方法, 其特 征在于, 所述帧率调整包括: 如果原视频的帧率高于要求的预设 帧率, 根据原视频的帧率与 预设帧率的比例信 息对 原视频进行抽帧, 得到预设帧率的第一视频; 如果原视频的帧率低于要求的预设帧率, 利用视频插帧模型将原视频插帧至第一帧 率, 所述第一帧率为原视频插帧之前 的帧率与预设帧率的最小公倍数, 根据第一帧率与预 设帧率的比例信息对插帧后的原视频进行抽帧, 得到预设帧率的第一视频, 所述视频插帧 模型用于生成任意两帧图像之间的过渡帧。 6.根据权利要求5所述的方法, 其特征在于, 所述视频插帧模型是由神经网络经过训练 得到的, 在训练过程中, 将训练视频帧序列中的连续三帧作为三元组, 将三元 组中的第一帧 和第三帧作为神经网络的输入, 将三元组中的第二帧作为神经网络的输出 的监督信息, 对 神经网络进行训练得到 视频插帧模型。 7.根据权利要求6所述的方法, 其特征在于, 神经网络的输入包括: 第一帧和第三帧的 视觉特征信息和深度信息, 以及第一帧和第三帧之间的光 流信息和形变信息 。 8.根据权利要求1所述的方法, 其特征在于, 所述根据交互场景相应的人物定制信息, 对第一视频中的各帧图像中的人物进行编辑处 理包括以下中的一项或多 项: 根据交互场景相应的人物形象定制信 息, 对第一视频中的各帧图像中的人物形 象进行 编辑处理; 根据交互场景相应的人物表情定制信 息, 对第一视频中的各帧图像中的人物表情进行 编辑处理; 根据交互场景相应的人物动作定制信 息, 对第一视频中的各帧图像中的人物动作进行 编辑处理。 9.根据权利要求8所述的方法, 其特征在于, 所述根据交互场景相应的人物形象定制信权 利 要 求 书 1/6 页 2 CN 114863533 A 2息, 对第一视频中的各帧图像中的人物形象进行编辑处 理包括: 根据用户在第一视频中的部分视频帧所做的人物形象调整, 确定人物形象调整参数, 按照所述人物形象调整参数对第一视频中的其 余视频帧中的人物形象进行编辑处 理。 10.根据权利要求9所述的方法, 其特征在于, 所述按照所述人物形象调整参数对第一 视频中的其 余视频帧中的人物形象进行编辑处 理包括: 根据所述人物形象调整参数中的人物形 象调整的目标部位, 通过关键点检测定位第 一 视频中的其 余视频帧中的人物的目标部位; 根据所述人物形象调整参数中的人物形 象调整的幅度信 息或位置信 息, 通过图形学变 换对定位的目标部位的幅度或位置进行调整。 11.根据权利要求8所述的方法, 其特 征在于, 所述人物 表情定制信息包括目标表情对应的预设 分类信息, 所述根据交互场景相应的人物表情定制信 息, 对第一视频中的各帧图像中的人物表情 进行编辑处 理, 包括: 获取第一视频中每帧图像的特 征信息、 人脸关键点的特 征信息和原 表情的分类信息; 将每帧图像的特征信息、 人脸关键点的特征信息、 原表情的分类信息与目标表情对应 的预设分类信息进行融合, 得到所述每帧图像对应的融合图像的特 征信息; 根据所述每帧图像对应的融合图像的特征信息, 生成所述每帧图像对应的融合图像, 所有融合图像形成人脸表情是目标表情的第二视频。 12.根据权利要求11所述的方法, 其特征在于, 所述获取第 一视频中每帧图像的特征信 息、 人脸关键点的特 征信息和原 表情的分类信息包括: 将所述第一视频中每帧图像输入人脸特征提取模型, 得到输出的所述每帧图像的特征 信息; 将所述每帧图像的特征信 息输入人脸关键点检测模型, 得到所述每帧图像的人脸关键 点的坐标信息, 采用主成分分析法对所有人脸关键点的坐标信息进行降维, 得到预设维度 的信息, 作为所述人脸关键点的特 征信息; 将所述每帧图像的特征信 息输入表情分类模型, 得到所述每帧图像的原表情的分类信 息。 13.根据权利要求11所述的方法, 其特征在于, 所述将每帧图像的特征信息、 人脸关键 点的特征信息、 原 表情的分类信息与目标表情对应的预设 分类信息进行融合包括: 将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和 取平均, 得到所述每帧图像对应的融合表情的分类信息; 将与训练得到的第 一权重相乘后的所述每帧图像的人脸关键点的特征信 息, 与训练得 到的第二权重相乘后的所述每帧图像的特征信息, 以及所述每帧图像对应的融合表情的分 类信息进行拼接 。 14.根据权利要求12所述的方法, 其特征在于, 所述根据 所述每帧图像对应的融合图像 的特征信息, 生成所述每帧图像对应的融合图像包括: 将所述每帧图像对应的融合图像的特征信 息输入解码器, 输出生成的所述每帧图像对 应的融合图像; 其中, 所述人脸特 征提取模型包括卷积层, 所述 解码器包括反卷积层。权 利 要 求 书 2/6 页 3 CN 114863533 A 3

.PDF文档 专利 数字人生成方法和装置及存储介质

文档预览
中文文档 31 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数字人生成方法和装置及存储介质 第 1 页 专利 数字人生成方法和装置及存储介质 第 2 页 专利 数字人生成方法和装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。