专利数字人生成方法和装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210541984.9 (22)申请日 2022.05.18 (71)申请人京东科技控股股份有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号C座2层2 21室 (72)发明人王林芳　张炜　石凡　张琪　申童　左佳伟　梅涛　 (74)专利代理机构中国贸促会专利商标事务所有限公司 1 1038 专利代理师许蓓 (51)Int.Cl. G06V 40/16(2022.01) G06T 3/40(2006.01) G06V 20/40(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) (54)发明名称数字人生成方法和装置及存储介质 (57)摘要本公开提出一种数字人生成方法和装置及存储介质，涉及计算机技术领域。该方法包括：获取第一视频；根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理；根据处理后的第一视频中的各帧图像，输出第二视频。根据交互场景相应的人物定制信息对视频中的人物进行编辑处理，通过人物编辑生成与交互场景匹配的数字人视频。权利要求书6页说明书18页附图6页 CN 114863533 A 2022.08.05 CN 114863533 A 1.一种数字人生成方法，其特征在于，包括：获取第一视频；根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理；根据处理后的第一视频中的各帧图像，输出第二视频。 2.根据权利要求1所述的方法，其特征在于，所述第一视频是由原视频经过预处理得到的，所述预处理包括分辨率调整、帧间平滑处理、帧率调整中的一项或多项。 3.根据权利要求2所述的方法，其特征在于，所述分辨率调整包括：如果原视频的分辨率高于要求的预设分辨率，按照预设分辨率对原视频进行降采样，得到预设分辨率的第一视频；如果原视频的分辨率低于要求的预设分辨率，利用超分辨率模型对原视频进行处理，得到预设分辨率的第一视频，所述超分辨率模型用于将输入视频的分辨率提升至预设分辨率。 4.根据权利要求3所述的方法，其特征在于，所述超分辨率模型是由神经网络经过训练得到的，在训练过程中，将来自高清视频的第一视频帧按照预设分辨率进行降采样得到第二视频帧，将第二视频帧作为神经网络的输入，将第一视频帧作为神经网络的输出的监督信息，对神经网络进行训练得到超分辨率模型。 5.根据权利要求2所述的方法，其特征在于，所述帧率调整包括：如果原视频的帧率高于要求的预设帧率，根据原视频的帧率与预设帧率的比例信息对原视频进行抽帧，得到预设帧率的第一视频；如果原视频的帧率低于要求的预设帧率，利用视频插帧模型将原视频插帧至第一帧率，所述第一帧率为原视频插帧之前的帧率与预设帧率的最小公倍数，根据第一帧率与预设帧率的比例信息对插帧后的原视频进行抽帧，得到预设帧率的第一视频，所述视频插帧模型用于生成任意两帧图像之间的过渡帧。 6.根据权利要求5所述的方法，其特征在于，所述视频插帧模型是由神经网络经过训练得到的，在训练过程中，将训练视频帧序列中的连续三帧作为三元组，将三元组中的第一帧和第三帧作为神经网络的输入，将三元组中的第二帧作为神经网络的输出的监督信息，对神经网络进行训练得到视频插帧模型。 7.根据权利要求6所述的方法，其特征在于，神经网络的输入包括：第一帧和第三帧的视觉特征信息和深度信息，以及第一帧和第三帧之间的光流信息和形变信息。 8.根据权利要求1所述的方法，其特征在于，所述根据交互场景相应的人物定制信息，对第一视频中的各帧图像中的人物进行编辑处理包括以下中的一项或多项：根据交互场景相应的人物形象定制信息，对第一视频中的各帧图像中的人物形象进行编辑处理；根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理；根据交互场景相应的人物动作定制信息，对第一视频中的各帧图像中的人物动作进行编辑处理。 9.根据权利要求8所述的方法，其特征在于，所述根据交互场景相应的人物形象定制信权　利　要　求　书 1/6 页 2 CN 114863533 A 2息，对第一视频中的各帧图像中的人物形象进行编辑处理包括：根据用户在第一视频中的部分视频帧所做的人物形象调整，确定人物形象调整参数，按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理。 10.根据权利要求9所述的方法，其特征在于，所述按照所述人物形象调整参数对第一视频中的其余视频帧中的人物形象进行编辑处理包括：根据所述人物形象调整参数中的人物形象调整的目标部位，通过关键点检测定位第一视频中的其余视频帧中的人物的目标部位；根据所述人物形象调整参数中的人物形象调整的幅度信息或位置信息，通过图形学变换对定位的目标部位的幅度或位置进行调整。 11.根据权利要求8所述的方法，其特征在于，所述人物表情定制信息包括目标表情对应的预设分类信息，所述根据交互场景相应的人物表情定制信息，对第一视频中的各帧图像中的人物表情进行编辑处理，包括：获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息；将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合，得到所述每帧图像对应的融合图像的特征信息；根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像，所有融合图像形成人脸表情是目标表情的第二视频。 12.根据权利要求11所述的方法，其特征在于，所述获取第一视频中每帧图像的特征信息、人脸关键点的特征信息和原表情的分类信息包括：将所述第一视频中每帧图像输入人脸特征提取模型，得到输出的所述每帧图像的特征信息；将所述每帧图像的特征信息输入人脸关键点检测模型，得到所述每帧图像的人脸关键点的坐标信息，采用主成分分析法对所有人脸关键点的坐标信息进行降维，得到预设维度的信息，作为所述人脸关键点的特征信息；将所述每帧图像的特征信息输入表情分类模型，得到所述每帧图像的原表情的分类信息。 13.根据权利要求11所述的方法，其特征在于，所述将每帧图像的特征信息、人脸关键点的特征信息、原表情的分类信息与目标表情对应的预设分类信息进行融合包括：将所述每帧图像的原表情的分类信息与所述目标表情对应的预设分类信息进行加和取平均，得到所述每帧图像对应的融合表情的分类信息；将与训练得到的第一权重相乘后的所述每帧图像的人脸关键点的特征信息，与训练得到的第二权重相乘后的所述每帧图像的特征信息，以及所述每帧图像对应的融合表情的分类信息进行拼接。 14.根据权利要求12所述的方法，其特征在于，所述根据所述每帧图像对应的融合图像的特征信息，生成所述每帧图像对应的融合图像包括：将所述每帧图像对应的融合图像的特征信息输入解码器，输出生成的所述每帧图像对应的融合图像；其中，所述人脸特征提取模型包括卷积层，所述解码器包括反卷积层。权　利　要　求　书 2/6 页 3 CN 114863533 A 3

专利 数字人生成方法和装置及存储介质

专利数字人生成方法和装置及存储介质