专利基于知识蒸馏的实时视频人脸卡通化方法、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210342249.5 (22)申请日 2022.03.31 (71)申请人上海幻维数码创意科技股份有限公司地址 200072 上海市静安区广中西路7 77弄 13号 (72)发明人吴强　季晓枫　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师应小波 (51)Int.Cl. G06T 13/00(2011.01) G06N 3/04(2006.01) G06T 3/00(2006.01) G06V 10/26(2022.01)G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于知识蒸馏的实时视频人脸卡通化方法、设备及介质 (57)摘要本发明涉及一种基于知识蒸馏的实时视频人脸卡通化方法、设备及介质，该方法包括以下步骤：步骤S1、采用图像语义分割DeepLabv3+网络进行人像分割；步骤S2、通过特征提取模块提取人脸特征；步骤S3、采用Soft ‑AdaLIN归一化方法，将人脸特征与卡通特征相融合；步骤S4、基于融合后的特征，通过特征重建模块生成卡通图像；步骤S5、基于知识蒸馏模型，将步骤S1～S4训练得的模型作为教师模型，基于损失函数，通过教师模型训练学生模型，实时生成人脸卡通化视频。与现有技术相比，本发明具有人脸卡通化视频生成实时性好的优点。权利要求书1页说明书5页附图2页 CN 114926569 A 2022.08.19 CN 114926569 A 1.一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，该方法包括以下步骤：步骤S1、采用图像语义分割De epLabv3+网络进行人像分割；步骤S2、通过特征提取模块提取人脸特征；步骤S3、采用Soft ‑AdaLIN归一化方法，将人脸特征与卡通特征相融合；步骤S4、基于融合后的特征，通过特征重建模块生成卡通图像；步骤S5、基于知识蒸馏模型，将步骤S1～S4训练得到的模型作为教师模型，基于损失函数，通过教师模型训练学生模型，实时生成人脸卡通化视频。 2.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述步骤S1中的图像语义分割De epLabv3+网络包括编码器模块和解码器模块；所述编码器模块采用深度卷积神经网络DCN N；所述解码器模块将底层特征与高层特征进一步融合，进行人像边界分割。 3.根据权利要求2所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述深度卷积神经网络DCNN包含用于引入多尺度信息的带孔洞卷积的空间金字塔池化层 ASPP。 4.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述步骤S2中特征提取模块包含堆叠的Hourglas s模块，以及下采样模块和残差模块；采用堆叠的Hourglas s模块，渐进地将输入图像抽象成易于编码的形式；所述残差模块对人脸特征进行编码并提取用于后续特征融合的统计信息。 5.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述步骤S3具体为：采用Soft ‑AdaLIN归一化方法，通过可学习的权重对输入人脸图像的编码特征统计信息和卡通特征统计信息进行加权融合，再以AdaLIN的方式反规范化解码特征，保留输入图像的语义内容。 6.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述步骤S4具体为：所述特征重建模块采用与特征提取部分对称的结构，包括解码模块、上采样模块和 Hourglas s模块，依据编码特征生成对应的卡通图像。 7.根据权利要求1所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述步骤S5中的损失函数表达式为： Loss＝loss1+loss2 其中， loss1为硬标签与预测值之间的损失， loss2为教师模型输出的软标签与预测值之间的损失；所述预测值为生成的卡通图像数据。 8.根据权利要求7所述的一种基于知识蒸馏的实时视频人脸卡通化方法，其特征在于，所述硬标签为开源数据集。 9.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～8任一项所述的方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1～8中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 114926569 A 2基于知识蒸馏的实时视频人脸卡通化方法、设备及介质技术领域 [0001]本发明涉及人脸卡通化领域，尤其是涉及一种基于知识蒸馏的实时视频人脸卡通化方法、设备及介质。背景技术 [0002]卡通画一直以幽默、风趣的艺术效果和鲜明直接的表达方式为大众所喜爱。近年来，越来越多的人开始在社交网络中使用卡通画作为一种表意的文化载体。图像卡通风格渲染尤其是视频图像卡通风格渲染是一项具有挑战性的任务，其目的是将真实视频图像转换为卡通风格的非真实感图像，同时保持原视频图像的语义内容和纹理细节。 [0003]目前，视频卡通化任务的主要难点： [0004]1)实时性不高：现有的方法大多针对图片卡通化； [0005]2)数据获取难度大：绘制风格精美且统一的卡通画耗时较多、成本较高，且转换后的卡通画和原照片的脸型及五官形状有差异，因此不构成像素级的成对数据，难以采用基于成对数据的图像翻译(Paired Image Translati on)方法。 [0006]3)照片卡通化后容易丢失身份信息：基于非成对数据的图像翻译(UnpairedI mage Translation)方法中的循环一致性损失(Cycle Loss)无法对输入输出的id进行有效约束。 [0007]深度神经网络因其较高的学习能力被应用到图像卡通风格渲染中，有着很高的优势，但是，这种方法通常难以在转换图像全局风格和保持图像局部的细节语义内容之间取得良好的平衡，易导致风格化程度不足或者丢失图像中的语义细节，产生人工痕迹 (Artifacts)。此外，现有的方法难以满足视频卡通化的实时性要求。 [0008]针对上述视频人脸卡通化存在的、实时性不高的缺陷，需要设计一种实时视频人脸卡通化方法。发明内容 [0009]本发明的目的就是为了克服上述现有技术存在的缺陷而提供了一种实时性高的基于知识蒸馏的实时视频人脸卡通化方法、设备及介质。 [0010]本发明的目的可以通过以下技术方案来实现： [0011]根据本发明的第一方面，提供了一种基于知识蒸馏的实时视频人脸卡通化方法，该方法包括以下步骤： [0012]步骤S1、采用图像语义分割De epLabv3+网络进行人像分割； [0013]步骤S2、通过特征提取模块提取人脸特征； [0014]步骤S3、采用Soft ‑AdaLIN归一化方法，将人脸特征与卡通特征相融合； [0015]步骤S4、基于融合后的特征，通过特征重建模块生成卡通图像； [0016]步骤S5、基于知识蒸馏模型，将步骤S1～S 4训练得到的模型作为教师模型，基于损失函数，通过教师模型训练学生模型，实时生成人脸卡通化视频。说　明　书 1/5 页 3 CN 114926569 A 3

专利 基于知识蒸馏的实时视频人脸卡通化方法、设备及介质

专利基于知识蒸馏的实时视频人脸卡通化方法、设备及介质