专利面部动作识别及模型训练的方法、装置、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111646070.0 (22)申请日 2021.12.2 9 (71)申请人科大讯飞股份有限公司地址 230088 安徽省合肥市高新区望江西路666号 (72)发明人奚昌凤　吴子扬　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 代理人耿苑 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/16(2022.01) G06V 40/20(2022.01) G06N 3/08(2006.01) G06V 10/82(2022.01) (54)发明名称面部动作识别及模型训练的方法、装置、设备和存储介质 (57)摘要本申请提供了一种面部动作识别及模型训练的方法、装置、设备和存储介质，其中模型训练方法包括：获得多个视频段样本；构建每个视频段样本的至少一个同源正样本对和至少一个同源负样本对；针对多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对；基于多个视频段样本中的人脸图像样本，同源正样本对、同源负样本对、非同源正样本对及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；利用标注有面部动作类别的多个面部图像样本，对该面部动作特征模型和面部动作分类器进行训练，得到包含面部动作识别模型。本申请的方案能够训练出可准确识别人脸面部动作的面部动作识别模型。权利要求书4页说明书20页附图5页 CN 114332711 A 2022.04.12 CN 114332711 A 1.一种面部动作识别模型的训练方法，其特征在于，包括：获得多个视频段样本，每个所述视频段样本包括属于同一用户的多个人脸图像样本，且所述多个视频段样本内的人脸图像样本不完全属于同一用户；针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括属于同一个视频段样本且表情强度相似的两个人脸图像样本，所述同源负样本对包括属于同一个视频段样本且表情强度差值超过第一强度差值的两个人脸图像样本；针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括属于不同视频段样本且表情强度相似的两个人脸图像样本，所述非同源负样本对包括属于不同视频段样本且表情强度差值超过第二强度差值的两个人脸图像样本；基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，得到初始训练出的面部动作特征模型；利用标注有面部动作类别的多个面部图像样本，对所述初始训练出的面部动作特征模型和待训练的面部动作分类器进行训练，得到包含训练出的面部动作特征模型和面部动作分类器的面部动作识别模型。 2.根据权利要求1所述的方法，其特征在于，在所述采用自监督学习方法训练面部动作特征模型之前，还包括：针对每个视频段样本中每个人脸图像样本，对所述人脸图像样本进行关键点检测，得到所述人脸图像样本中至少一种人脸部位的关键点分布；针对每个视频段样本，将所述视频段样本中表情强度最低的人脸图像样本确定为所述视频段样本中的人脸模板图像；针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，构建所述视频段样本中针对所述人脸部位的至少一个局部正样本对和至少一个局部负样本对，其中，所述局部正样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布相似的一个人脸图像样本；所述局部负样本对包括：所述视频段样本中的人脸模板图像，以及，所述视频段样本中所述人脸部位的关键点分布与所述人脸模板图像的关键点分布差距较大的至少一个人脸图像样本中的一个人脸图像样本；所述基于所述多个视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对以及非同源负样本对，采用自监督学习方法训练面部动作特征模型，包括：基于所述视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、所述视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型。 3.根据权利要求2所述的方法，其特征在于，所述基于所述视频段样本中的人脸图像样本，所述同源正样本对、同源负样本对、非同源正样本对、非同源负样本对、所述视频段样本中每个人脸部位对应的局部正样本对和局部负样本对，采用自监督学习方法训练面部动作特征模型，包括：权　利　要　求　书 1/4 页 2 CN 114332711 A 2基于所述视频段样本中的人脸图像样本，设定的同源人脸整体损失函数、非同源人脸整体损失函数以及不同种人脸部位对应的人脸局部损失函数，采用自监督学习方法对面部动作特征模型进行多损失函数联合训练；其中，所述同源人脸整体损失函数为适用于同源正样本对和同源负样本对的损失函数；所述非同源人脸整体损失函数为适用于非同源正样本对和非同源负样本对的损失函数；每个人脸部位的人脸局部损失函数为适用于所述人脸部位对应的局部正样本对和局部负样本对的损失函数。 4.根据权利要求1所述的方法，其特征在于，所述针对每个视频段样本，构建所述视频段样本的至少一个同源正样本对和至少一个同源负样本对，包括：针对每个视频段样本，确定所述视频样本中表情强度低于第一强度阈值的多个第一人脸图像样本以及表情强度高于第二强度阈值的多个第二人脸图像样本，所述第二强度阈值大于所述第一强度阈值；针对每个视频段样本，基于所述多个第一人脸图像样本和多个第二人脸图像样本，构建出至少一个同源正样本对和至少一个同源负样本对，所述同源正样本对包括：属于同一个视频段样本的两个第一人脸图像样本或者两个第二人脸图像样本，所述同源负样本对包括：属于同一个视频段样本的一个第一人脸图像样本和一个第二人脸图像样本。 5.根据权利要求1或4所述的方法，其特征在于，所述针对所述多个视频段样本构建至少一个非同源正样本对和至少一个非同源负样本对，包括：针对每个视频段样本，确定所述视频段样本中表情强度低于第三强度阈值的多个第三人脸图像样本，以及，表情强度高于第四强度阈值的多个第四人脸图像样本，所述第四强度阈值大于第三强度阈值；基于各视频段样本中的第三人脸图像样本和第四人脸图像样本，构建出至少一个非同源正样本对和至少一个非同源负样本对，所述非同源正样本对包括：属于不同视频段样本的两个第三人脸图像样本，所述非同源负样本对包括属于不同视频段样本的一个第三人脸图像样本和一个第四人脸图像样本。 6.根据权利要求2所述的方法，其特征在于，所述针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，构建所述视频段样本中针对所述人脸部位的至少一个局部正样本对和至少一个局部负样本对，包括：针对每个视频段样本中每个人脸部位，基于所述视频段样本中各人脸图像样本中所述人脸部位的关键点分布，确定所述视频段样本的人脸模板图像中所述人脸部位的基准长度和基准宽度，从所述视频段样本中选取满足第一条件的人脸图像样本与所述人脸模板图像构成局部正样本对，选取满足第二条件的人脸图像样本与所述人脸模板图像构成局部负样本对；其中，第一条件为人脸图像样本对应的第一长度差和第二宽度差之和最小，所述第一长度差为人脸图像样本的所述人脸部位的长度与所述基准长度的长度差，所述第二宽度差为人脸图像样本的所述人脸部位的宽度与所述基准宽度的宽度差；所述第二条件包括：人脸图像样本的所述人脸部位的长度与所述基准长度的第二长度权　利　要　求　书 2/4 页 3 CN 114332711 A 3

专利 面部动作识别及模型训练的方法、装置、设备和存储介质

专利面部动作识别及模型训练的方法、装置、设备和存储介质