(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210683619.1
(22)申请日 2022.06.16
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
申请人 招商银行股份有限公司
(72)发明人 王上飞 吴毅 常亚南 李国鸣
毛萌
(74)专利代理 机构 安徽省合肥新 安专利代理有
限责任公司 34101
专利代理师 陆丽莉 何梅生
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 40/70(2022.01)
G06N 3/08(2006.01)G06N 3/04(2006.01)
G06F 40/30(2020.01)
G06F 40/289(2020.01)
(54)发明名称
文本描述辅助的姿势感知的人脸表情识别
方法
(57)摘要
本发明公开了一种表情描述文本辅助的姿
势感知的人脸表情识别方法, 包括: 1、 根据表情
发生时的面部单元动作和对原始人脸图像的预
处理, 构建出多模态数据集合; 2、 构建姿势分类
器, 从人脸图像中提取姿势特征, 并选取各种姿
势的聚类中心作为对应的姿势特征; 3、 构建表情
描述文本 特征提取器, 从文本中提取表情文本特
征; 4、 融合人脸视觉特征, 姿势特征和表情文本
特征, 以跨模态的方式为视觉特征生成对应姿势
和表情的注 意力图, 并通过同时区分注意力图加
权后的视觉特征的姿势和表情类别, 从而得到最
优表情表征网络。 本发明能有效利用先验姿势特
征和表情描述文本丰富的语义信息, 从而能实现
任意姿势下的表情的精准识别。
权利要求书3页 说明书9页 附图2页
CN 114944002 A
2022.08.26
CN 114944002 A
1.一种文本描述辅助的姿势感知的人脸表情识别方法, 其特征在于, 是按如下步骤进
行:
步骤1、 构建多模态数据集 合A;
步骤1.1、 构建多模态数据的表情描述文本集合, 记 为
其中, sk表示第k条文
本, m为文本的总条数; 所述第 k条文本sk包含的单词, 记为
其中, tk,l表示所述
第k条文本sk中的第l个单词, Nk表示第k条文本信息的单词长度;
步骤1.2、 构建多模态数据的表情图像数据集 合:
获取真实人脸图像数据集并使用图像旋转、 裁剪以及归一化的方法进行预处理, 从而
得到表情图像数据集
其中, xi, yi, vi分别表示第i个人脸图像及对应的表
情类别和姿势类别, yi∈{1,2,…,m'}, vi∈{1,2,…,n}, N是表情图像数据集D中图像的数
量, m'是表情的总类别数, n是姿势的总类别数, 且m'=m;
步骤2、 构建姿势分类 器, 包含: 姿势特 征提取器Ep, 分类器Cp和特征对齐器AL:
步骤2.1、 构建所述姿势特 征提取器Ep为ResNet5 0结构:
所述ResNet50结构由一个卷积层, 一个批归一化层, 一个ReLU激活函数层, 一个最大池
化层, 四个深度残差块和一个平均池化层组成;
步骤2.2、 提取姿势特 征:
将所述表情图像数据集D的第i个人脸图像xi输入所述姿势 特征提取器Ep中, 获得第i个
人脸图像xi的姿势特 征
步骤2.3、 构建所述分类 器Cp, 包含一个全连接层:
将所述姿势特 征
输入到所述分类 器Cp中, 得到第i个人脸图像xi预测的姿势类别v'i;
步骤2.4、 利用式(1)构建姿势分类损失Lpose:
Lpose=crossentropy(v′i,vi) (1)
式(1)中, cros sentropy()表示交叉熵函数;
步骤2.5、 利用式(2)计算第j种姿势的特 征fj, 从而得到n种姿势的特 征:
式(2)中, nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特
征集合的特征数量;
步骤2.6、 构建所述特 征对齐器AL, 包含一个全连接层:
将所述第j种姿势的特征fj输入到所述特征对齐器AL中, 得到对齐后的第j种姿势特征
步骤3、 构建表情描述文本特征提取器, 包含: 分词器Et, 文本内特征编码器Eintra和文本
间特征编码器Einter:
步骤3.1、 构建所述分词 器Et, 依次包含文本预处理层、 特殊符号添加层、 符号数字化层
和序列对齐层;
将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理, 获得对应权 利 要 求 书 1/3 页
2
CN 114944002 A
2的第k个数字序列
以及对应的第k个位置编码为pck;
步骤3.2、 构建文本内特 征编码器Eintra, 包含: 嵌入层和多层Transformer编码器;
所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而
成;
将所述第k个数字序列
和第k个位置编码pck输入到所述文本内特征编码器Eintra中进
行处理, 获得第k个初步表情描述文本特 征
步骤3.3、 构建所述文本间特 征编码器Einter, 包含: 多层Transformer编码器;
将所有初步表情描述文本特征
输入到所述文本间特征编码器Einter中进行处
理, 获得最终表情描述文本特 征
其中,
表示第k条表情文本描述特 征;
步骤4、 构建跨模态模块, 包 含: 图像视 觉特征提取器Ev, 姿势分类 器Cp和表情分类 器Ce:
步骤4.1、 构建所述图像视 觉特征提取器Ev, 包含部分ResNet5 0的层结构;
所述部分ResNet50的层 结构包含一个卷积层, 一个批归一化层, 一个ReLU激活函数层,
一个最大池化层和三个深度残差块;
将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理, 获
得第i个人脸图像xi的视觉特征
步骤4.2、 生成注意力图:
步骤4.2.1、 利用式(3)计算对齐后的第j种姿势特征
第k种表情文本描述特征
与
视觉特征
的余弦矩阵
式(4)中, ×表示矩阵乘法, | ·|表示沿着第0维求和;
步骤4.3.2、 利用式(4)计算 余弦矩阵
经激活函数ReLU后的矩阵
步骤4.3.3、 利用式(5)计算矩阵
经归一化函数Norm后的注意力图
步骤4.4、 利用式(6)计算第i个人脸图像xi的最终特 征Fi:
式(6)中, w和h分别表示视觉特征
的宽度和高度,
表示注意力图
中按照先
行后列的顺序排列后的第q个注 意力权重,
表示视觉特征
中按照先行后列的顺序排列
后的第q个视 觉特征;
步骤4.4、 构建姿势分类 器Cp和表情分类 器Ce:权 利 要 求 书 2/3 页
3
CN 114944002 A
3
专利 文本描述辅助的姿势感知的人脸表情识别方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:13:26上传分享