(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210515089.X
(22)申请日 2022.05.12
(71)申请人 东南大学
地址 210096 江苏省南京市玄武区四牌楼 2
号
(72)发明人 达飞鹏 蒋倩
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 薛雨妍
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/40(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06T 3/40(2006.01)
G06T 5/00(2006.01)
G06T 7/11(2017.01)
(54)发明名称
基于局部敏感特征与全局特征融合的人脸
表情识别方法
(57)摘要
本发明公开了一种基于局部敏感特征与全
局特征融合的人脸表情识别方法, 步骤如下: 对
公开表情数据集进行预处理; 构建基于局部特征
与全局特征的神经网络结构, 该结构由全局特征
提取分支和局部敏感特征提取分支构成; 在局部
敏感特征提取分支中添加敏感损失, 与交叉熵损
失一起作为联合损失来监督网络学习; 将预处理
过的样本图像输入到网络模型中进行训练; 将待
测试的人脸图像送入训练好的神经网模型中进
行表情识别; 本发明通过捕获全局和局部敏感特
征, 从而有效提升 了人脸表情分类效果。
权利要求书3页 说明书7页 附图2页
CN 114783034 A
2022.07.22
CN 114783034 A
1.一种基于局部敏感特征与全局特征融合的人脸表情识别方法, 其特征在于, 包括以
下步骤:
步骤1: 从网络上获取公开数据集或从真实环境中采集人脸表情图像, 并对数据集进行
预处理;
步骤2: 设计基于局部敏感特征与全局特征融合的网络结构, 全局分支用于从完整人脸
图像中提取全局语义特 征, 局部分支用于从局部特 征图中提取细粒度表情特 征;
步骤3: 将步骤2中得到的人脸全局特征和局部特征进行非线性特征融合, 并将融合后
的特征送入Softmax分类 器中预测人脸表情类别;
步骤4: 在局部分支中添加局部敏感损失, 与交叉熵损失加权组合构 成联合损失共同监
督网络训练;
步骤5: 使用步骤1中预处 理过的样本数据输入到网络中训练并测试。
2.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法, 其
特征在于, 所述 步骤1的具体方法为:
所述人脸表情公开数据集为FER2013、 RAF ‑DB、 CK+和Oulu ‑CASIA数据集, 本方法首先对
数据集进行预处理; 利用Dlib人脸检测算法检测出图像中的人脸区域, 将其从原始图像中
裁剪出来, 缩放到统一尺寸224 ×224, 针对单通道图像, 通过复制法将单通道图片转化为三
通道图片, 并采用随机水平翻转、 随机 裁剪的方法进行 数据增强。
3.根据权利要求1所述的基于局部敏感特征与全局特征融合的人脸表情识别方法, 其
特征在于, 所述 步骤2的具体方法为:
所述网络结构以残差结构为基础, 全局分支由ResNet34的block1 ‑block3组成, 每个
Block的输出端和全局分支末端之间都依次串联一个空间注意力模块和一个下采样模块,
并在全局分支输出端对三种不同抽象程度的特征图进 行融合成为人脸全局特征块, 全局分
支的前两个block构成预 处理模块, 用于从输入图像中提取浅层特征, 将浅层特征按照五官
位置分成9个patch后分别送入局部敏感分支的9个独立单元中提取局部细粒度特征并获取
每个patch的重要性权重, 在靠近局部分支输出端的位置, 将各个patch输出的局 部敏感特
征按照重要性权重进 行加权融合后得到局部敏感特征块, 其中具体的构建 网络结构的方法
为:
步骤2.1: ResNet34 网络中前三个block分别包含3,4,6个残差结构, 所述全局分支网络
将尺寸为224 ×224×3的原始图像作为输入, 依次经过三个block进行全局特征提取, 在每
个block的输出端和全局分支末端之间串联一个空间注意力模块和下采样模块统一到同一
尺寸, 并在全局分支输出端的位置对三个不同抽象程度的特征块进行特征融合, 得到最终
的全局高层语义特 征;
步骤2.2: 步骤2.1中所述空间注意力模块首先利用平均池化和最大池化分别 对输入尺
寸为c×h×w特征图F进行通道压缩, 得到两个尺寸为1 ×h×w的空间维度全局特征MAvg和
MMax, 为减少输入信息丢失, 对输入特征图F进行1 ×1卷积, 得到尺寸为c ×h×w的特征块
M1×1conv, 将MAvg和MMax进行逐元素相加后, 经Sigmoid激活, 得到尺寸为1 ×h×w的空间注意力
图MSA, 将MSA与M1×1conv进行逐元素相乘后送入1 ×1卷积, 并与原始的输入特征图F进行逐元
素相加, 生成经空间注意力模块优化后的尺寸 为c×h×w的特征图FSA可以表示 为:
FSA=F+f1×1conv( δ(MAvg+MMax)×M1×1conv) (1)权 利 要 求 书 1/3 页
2
CN 114783034 A
2MAvg=AvgPool(F) (2)
MMax=MaxPool(F) (3)
M1×1conv=f1×1conv(F) (4)
其中: f1×1conv表示1×1卷积, MaxPool表示最大池化, AvgPool表示平均池化, δ表示
Sigmoid激活操作;
步骤2.3: 步骤2.1中所述下采样模块将空间注意力输出特征块FSA归一化到统一尺寸,
下采样模块采用池化和3 ×3卷积操作串联构 成, 由于每一个FSA的尺寸不同, 因此将其细化
分别命名为FSA1、 FSA2和FSA3, 其中, FSA1的尺寸为64 ×56×56, FSA2的尺寸为128 ×28×28, FSA3
的尺寸为256 ×14×14, 将FSA1、 FSA2和FSA3分别输入下采样模块, 生成尺寸为512 ×14×14的
FDS1、 FDS2和FDS3, 可以分别表示 为:
FDS1=f3×3conv1(MaxPool_1(FSA1)) (5)
FDS2=f3×3conv2(MaxPool_2(FSA2)) (6)
FDS3=f3×3conv3(MaxPool_3(FSA3)) (7)
其中: f3×3conv1、 f3×3conv2和f3×3conv3表示3×3卷积, 各自的卷积参数不同, MaxPool_1、
MaxPool_2和MaxPo ol_3表示最大池化, 各自的池化 参数不同;
步骤2.4: 步骤2.1中所述在全局分支输出端的位置对FDS1、 FDS2和FDS3进行特征融合, 融
合方式采用逐 元素相加, 得到最终的全局高层语义特 征FGlobal可以表示 为:
FGlobal=FDS1+FDS2+FDS3 (8)
步骤2.5: 输入图像经全局分支的前两个block, 提取到浅层特征FShallow, FShallow包含纹
理, 线条等基本的图像信息以及一些浅层的面部信息, 将浅层特征按照五官位置分成9个
patch后分别送入局部敏感分支的9个独立处理单元中提取局部细粒度特征并获取每个
patch的重要性权重, 在靠近局 部分支输出端的位置, 将各个patch输出的局 部敏感特征按
照重要性权 重进行加权融合后得到局部敏感特 征块FLocal;
步骤2.6: 步骤2.5中所述将 浅层特征FShallow按照五官位置 分为9个patch, FShallow的尺寸
为128×28×28, 空间维度的尺寸可以表示为FShallow[0:28,0:28], 每个patch的尺寸为128
×14×14, 具体的提取坐标范围为: Patch1=FShallow[0:14,0:14], Patch2=FShallow[0:14,
14:28], Patch3=FShallow[4:18,0:14], Patch4=FShallow[0:14,7:21], Patch5=FShallow[4:18,
14:28], Patch6=FShallow[10:24,0:14], Patch7=FShallow[7:21,7:21], Patch8=FShallow[10:
24,14:28], Patc h9=FShallow[14:28,7:21];
步骤2.7: 步骤2.5中所述局部敏感单元由特征提取单元和权值估计单元串联组成。 其
中, 特征提取单元由3 ×3卷积操作构成, 权值估计单元由基本的卷积操作, 全局池化, 全连
接层依次串联组成, Patch1‑Patch9经过特征提取模块提取细 粒度特征后, 经权值估计单元
计算该patc h内包含表情特 征的丰富度, 输出 各自对应的重要
专利 基于局部敏感特征与全局特征融合的人脸表情识别方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:48:59上传分享