专利训练表情驱动生成模型的方法、表情驱动方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211228272.8 (22)申请日 2022.10.08 (71)申请人北京世纪好未来教育科技有限公司地址 100086 北京市海淀区中关村大街32 号19层1901室 (72)发明人王鹏程　冀志龙　 (74)专利代理机构北京北汇律师事务所 1 1711 专利代理师高栋 (51)Int.Cl. G06T 13/40(2011.01) G06T 17/20(2006.01) G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称训练表情驱动生成模型的方法、表情驱动方法及装置 (57)摘要本公开提供一种训练表情驱动生成模型的方法、表情驱动方法及装置，其中，训练表情驱动生成模型的方法，包括：获取样本脸部图像集，该样本脸部图像集中包括有同一对象不同表情的脸部图像；使用表情驱动生成模型处理样本集脸部图像集中的脸部图像，得到脸部图像的表情驱动参数；根据表情驱动参数生成脸部图像的三维脸部mesh 结构；根据三维脸部mesh 结构确定脸部图像的第一脸部关键点；获取脸部图像的第二脸部关键点，其中，第二脸部关键点为真实脸部关键点；将第一、第二脸部关键点由三维关键点投影成二维关键点；更新表情驱动生成模型的网络参数以最小化第一、第二脸部关键点之间的关键点误差。由此，可更好地表示大表情以及驱动同一对象的不同表情。权利要求书2页说明书15页附图10页 CN 115512014 A 2022.12.23 CN 115512014 A 1.一种训练表情驱动生成模型的方法，其特征在于，包括：获取样本脸部图像集，其中，所述样本脸部图像集中包括有同一对象不同表情的脸部图像；使用所述表情驱动生成模型处理所述样本集脸部图像集中的脸部图像，得到脸部图像的表情驱动参数；根据所述表情驱动参数生成脸部图像的三维脸部mesh结构；根据所述三维脸部mesh结构确定脸部图像的第一脸部关键点；获取脸部图像的第二脸部关键点，其中，所述第二脸部关键点为真实脸部关键点；根据预设投影函数将所述第一脸部关键点和所述第二脸部关键点由三维关键点投影成二维关键点；更新所述表情驱动生成模型的至少部分网络参数以最小化所述第一脸部关键点和所述第二脸部关键点之间的关键点误差。 2.如权利要求1所述的方法，其中，所述表情驱动参数包括形状参数，所述方法还包括：针对所述样本脸部图像集中同一对象不同表情的脸部图像，使用所述表情驱动生成模型处理脸部图像，得到脸部图像的形状参数；根据同一对象不同表情的脸部图像对应的形状参数，确定形状一致性误差；更新所述表情驱动生成模型的至少部分网络参数以最小化所述形状一致性误差。 3.如权利要求1或2所述的方法，其中，所述表情驱动参数包括表情参数，至少一个对象不同表情的脸部图像，是使用条件对抗生成网络基于该对象的一脸部图像和不同表情条件生成的，每个表情条件由表情动作单元组成，并且其中，所述方法还包括：针对基于表情条件生成的每个脸部图像，使用所述表情驱动生成模型处理该脸部图像，得到脸部图像的表情参数；根据所述表情条件确定脸部图像的真实表情参数；更新所述表情驱动生成模型的至少部分网络参数以最小化所述表情参数和所述真实表情参数之间的表情参数误差。 4.如权利要求1至 3中任一项所述的方法，其中，所述方法还包括：针对每个脸部图像，根据该脸部图像的三维脸部mesh结构渲染得到该脸部图像对应的二维脸部图像；确定该脸部图像及其渲染得到的二维脸部图像之间的感知损失和/或逐像素损失；更新所述表情驱动生成模型的至少部分网络参数以最小化所述感知损失和/或逐像素损失。 5.如权利要求1所述的方法，其中，所述第二脸部关键点包括眼部关键点和嘴部关键点中的一个或多个，所述关键点误差包括眼部开闭误差和嘴部开闭误差中的一个或多个；并且其中，所述更新所述表情驱动生成模型的至少部分网络参数以最小化所述第一脸部关键点和所述第二脸部关键点之间的关键点误差包括：更新所述表情驱动生成模型的至少部分网络参数以最小化所述眼部开闭误差和所述嘴部开闭误差中的一个或多个。 6.如权利要求1或5所述的方法，其中，所述获取脸部图像的第二脸部关键点，包括：权　利　要　求　书 1/2 页 2 CN 115512014 A 2使用多个关键点预测模型处理脸部图像，得到每个脸部图像对应的多个预测结果，其中，每个预测结果包括第二脸部关键点的预测坐标；针对每个第二脸部关键点，将该第二脸部关键点对应的多个预测坐标中关键点间距小于预设值的预测坐标视为相同坐标，并将出现次数最多的预测坐标为该第二脸部关键点的坐标。 7.如权利要求1所述的方法，其中，所述表情驱动参数包括形状参数，并且其中，所述根据所述表情驱动参数生成脸部图像的三维脸部mesh结构，包括：针对同一对象不同表情的脸部图像，通过全连接层融合该对象不同表情的脸部图像对应的形状参数，得到融合形状参数；根据所述融合形状参数生成该对象的三维脸部mesh结构，以得到该对象不同表情的脸部图像对应的三维脸部mesh结构。 8.一种表情驱动方法，其特征在于，包括：获取待处理的脸部图像；使用如权利要求1至7中任何一项所述的方法训练得到的表情驱动生成模型处理所述脸部图像，得到表情驱动参数；根据所述表情驱动参数进行表情驱动。 9.一种训练表情驱动生成模型的装置，其特征在于，包括：获取模块，用于获取样本脸部图像集，其中，所述样本脸部图像集中包括有同一对象不同表情的脸部图像；训练模块，用于：使用所述表情驱动生成模型处理所述样本集脸部图像集中的脸部图像，得到脸部图像的表情驱动参数；根据所述表情驱动参数生成脸部图像的三维脸部mesh结构；根据所述三维脸部mesh结构确定脸部图像的第一脸部关键点；获取脸部图像的第二脸部关键点，其中，所述第二脸部关键点为真实脸部关键点；根据预设投影函数将所述第一脸部关键点和所述第二脸部关键点由三维关键点投影成二维关键点；以及更新所述表情驱动生成模型的至少部分网络参数以最小化所述第一脸部关键点和所述第二脸部关键点之间的关键点误差。 10.一种电子设备，其特征在于，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1‑7中任一项所述的方法。 11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑7中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115512014 A 3

专利 训练表情驱动生成模型的方法、表情驱动方法及装置

专利训练表情驱动生成模型的方法、表情驱动方法及装置