专利基于局部敏感特征与全局特征融合的人脸表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210515089.X (22)申请日 2022.05.12 (71)申请人东南大学地址 210096 江苏省南京市玄武区四牌楼 2 号 (72)发明人达飞鹏　蒋倩　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师薛雨妍 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 3/40(2006.01) G06T 5/00(2006.01) G06T 7/11(2017.01) (54)发明名称基于局部敏感特征与全局特征融合的人脸表情识别方法 (57)摘要本发明公开了一种基于局部敏感特征与全局特征融合的人脸表情识别方法，步骤如下：对公开表情数据集进行预处理；构建基于局部特征与全局特征的神经网络结构，该结构由全局特征提取分支和局部敏感特征提取分支构成；在局部敏感特征提取分支中添加敏感损失，与交叉熵损失一起作为联合损失来监督网络学习；将预处理过的样本图像输入到网络模型中进行训练；将待测试的人脸图像送入训练好的神经网模型中进行表情识别；本发明通过捕获全局和局部敏感特征，从而有效提升了人脸表情分类效果。权利要求书3页说明书7页附图2页 CN 114783034 A 2022.07.22 CN 114783034 A 1.一种基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，包括以下步骤：步骤1：从网络上获取公开数据集或从真实环境中采集人脸表情图像，并对数据集进行预处理；步骤2：设计基于局部敏感特征与全局特征融合的网络结构，全局分支用于从完整人脸图像中提取全局语义特征，局部分支用于从局部特征图中提取细粒度表情特征；步骤3：将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合，并将融合后的特征送入Softmax分类器中预测人脸表情类别；步骤4：在局部分支中添加局部敏感损失，与交叉熵损失加权组合构成联合损失共同监督网络训练；步骤5：使用步骤1中预处理过的样本数据输入到网络中训练并测试。 2.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤1的具体方法为：所述人脸表情公开数据集为FER2013、 RAF ‑DB、 CK+和Oulu ‑CASIA数据集，本方法首先对数据集进行预处理；利用Dlib人脸检测算法检测出图像中的人脸区域，将其从原始图像中裁剪出来，缩放到统一尺寸224 ×224，针对单通道图像，通过复制法将单通道图片转化为三通道图片，并采用随机水平翻转、随机裁剪的方法进行数据增强。 3.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法，其特征在于，所述步骤2的具体方法为：所述网络结构以残差结构为基础，全局分支由ResNet34的block1 ‑block3组成，每个 Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块，并在全局分支输出端对三种不同抽象程度的特征图进行融合成为人脸全局特征块，全局分支的前两个block构成预处理模块，用于从输入图像中提取浅层特征，将浅层特征按照五官位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取每个patch的重要性权重，在靠近局部分支输出端的位置，将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块，其中具体的构建网络结构的方法为：步骤2.1： ResNet34 网络中前三个block分别包含3,4,6个残差结构，所述全局分支网络将尺寸为224 ×224×3的原始图像作为输入，依次经过三个block进行全局特征提取，在每个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一尺寸，并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合，得到最终的全局高层语义特征；步骤2.2：步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别对输入尺寸为c×h×w特征图F进行通道压缩，得到两个尺寸为1 ×h×w的空间维度全局特征MAvg和 MMax，为减少输入信息丢失，对输入特征图F进行1 ×1卷积，得到尺寸为c ×h×w的特征块 M1×1conv，将MAvg和MMax进行逐元素相加后，经Sigmoid激活，得到尺寸为1 ×h×w的空间注意力图MSA，将MSA与M1×1conv进行逐元素相乘后送入1 ×1卷积，并与原始的输入特征图F进行逐元素相加，生成经空间注意力模块优化后的尺寸为c×h×w的特征图FSA可以表示为： FSA＝F+f1×1conv( δ(MAvg+MMax)×M1×1conv) (1)权　利　要　求　书 1/3 页 2 CN 114783034 A 2MAvg＝AvgPool(F) (2) MMax＝MaxPool(F) (3) M1×1conv＝f1×1conv(F) (4) 其中： f1×1conv表示1×1卷积， MaxPool表示最大池化， AvgPool表示平均池化， δ表示 Sigmoid激活操作；步骤2.3：步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸，下采样模块采用池化和3 ×3卷积操作串联构成，由于每一个FSA的尺寸不同，因此将其细化分别命名为FSA1、 FSA2和FSA3，其中， FSA1的尺寸为64 ×56×56， FSA2的尺寸为128 ×28×28， FSA3 的尺寸为256 ×14×14，将FSA1、 FSA2和FSA3分别输入下采样模块，生成尺寸为512 ×14×14的 FDS1、 FDS2和FDS3，可以分别表示为： FDS1＝f3×3conv1(MaxPool_1(FSA1)) (5) FDS2＝f3×3conv2(MaxPool_2(FSA2)) (6) FDS3＝f3×3conv3(MaxPool_3(FSA3)) (7) 其中： f3×3conv1、 f3×3conv2和f3×3conv3表示3×3卷积，各自的卷积参数不同， MaxPool_1、 MaxPool_2和MaxPo ol_3表示最大池化，各自的池化参数不同；步骤2.4：步骤2.1中所述在全局分支输出端的位置对FDS1、 FDS2和FDS3进行特征融合，融合方式采用逐元素相加，得到最终的全局高层语义特征FGlobal可以表示为： FGlobal＝FDS1+FDS2+FDS3 (8) 步骤2.5：输入图像经全局分支的前两个block，提取到浅层特征FShallow， FShallow包含纹理，线条等基本的图像信息以及一些浅层的面部信息，将浅层特征按照五官位置分成9个 patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个 patch的重要性权重，在靠近局部分支输出端的位置，将各个patch输出的局部敏感特征按照重要性权重进行加权融合后得到局部敏感特征块FLocal；步骤2.6：步骤2.5中所述将浅层特征FShallow按照五官位置分为9个patch， FShallow的尺寸为128×28×28，空间维度的尺寸可以表示为FShallow[0:28,0:28]，每个patch的尺寸为128 ×14×14，具体的提取坐标范围为： Patch1＝FShallow[0:14,0:14]， Patch2＝FShallow[0:14, 14:28]， Patch3＝FShallow[4:18,0:14]， Patch4＝FShallow[0:14,7:21]， Patch5＝FShallow[4:18, 14:28]， Patch6＝FShallow[10:24,0:14]， Patch7＝FShallow[7:21,7:21]， Patch8＝FShallow[10: 24,14:28]， Patc h9＝FShallow[14:28,7:21]；步骤2.7：步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。其中，特征提取单元由3 ×3卷积操作构成，权值估计单元由基本的卷积操作，全局池化，全连接层依次串联组成， Patch1‑Patch9经过特征提取模块提取细粒度特征后，经权值估计单元计算该patc h内包含表情特征的丰富度，输出各自对应的重要

专利 基于局部敏感特征与全局特征融合的人脸表情识别方法

专利基于局部敏感特征与全局特征融合的人脸表情识别方法