专利文本描述辅助的姿势感知的人脸表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210683619.1 (22)申请日 2022.06.16 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号申请人招商银行股份有限公司 (72)发明人王上飞　吴毅　常亚南　李国鸣　毛萌　 (74)专利代理机构安徽省合肥新安专利代理有限责任公司 34101 专利代理师陆丽莉　何梅生 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/70(2022.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称文本描述辅助的姿势感知的人脸表情识别方法 (57)摘要本发明公开了一种表情描述文本辅助的姿势感知的人脸表情识别方法，包括： 1、根据表情发生时的面部单元动作和对原始人脸图像的预处理，构建出多模态数据集合； 2、构建姿势分类器，从人脸图像中提取姿势特征，并选取各种姿势的聚类中心作为对应的姿势特征； 3、构建表情描述文本特征提取器，从文本中提取表情文本特征； 4、融合人脸视觉特征，姿势特征和表情文本特征，以跨模态的方式为视觉特征生成对应姿势和表情的注意力图，并通过同时区分注意力图加权后的视觉特征的姿势和表情类别，从而得到最优表情表征网络。本发明能有效利用先验姿势特征和表情描述文本丰富的语义信息，从而能实现任意姿势下的表情的精准识别。权利要求书3页说明书9页附图2页 CN 114944002 A 2022.08.26 CN 114944002 A 1.一种文本描述辅助的姿势感知的人脸表情识别方法，其特征在于，是按如下步骤进行：步骤1、构建多模态数据集合A；步骤1.1、构建多模态数据的表情描述文本集合，记为其中， sk表示第k条文本， m为文本的总条数；所述第 k条文本sk包含的单词，记为其中， tk,l表示所述第k条文本sk中的第l个单词， Nk表示第k条文本信息的单词长度；步骤1.2、构建多模态数据的表情图像数据集合：获取真实人脸图像数据集并使用图像旋转、裁剪以及归一化的方法进行预处理，从而得到表情图像数据集其中， xi， yi， vi分别表示第i个人脸图像及对应的表情类别和姿势类别， yi∈{1,2,…,m'}， vi∈{1,2,…,n}， N是表情图像数据集D中图像的数量， m'是表情的总类别数， n是姿势的总类别数，且m'＝m；步骤2、构建姿势分类器，包含：姿势特征提取器Ep，分类器Cp和特征对齐器AL：步骤2.1、构建所述姿势特征提取器Ep为ResNet5 0结构：所述ResNet50结构由一个卷积层，一个批归一化层，一个ReLU激活函数层，一个最大池化层，四个深度残差块和一个平均池化层组成；步骤2.2、提取姿势特征：将所述表情图像数据集D的第i个人脸图像xi输入所述姿势特征提取器Ep中，获得第i个人脸图像xi的姿势特征步骤2.3、构建所述分类器Cp，包含一个全连接层：将所述姿势特征输入到所述分类器Cp中，得到第i个人脸图像xi预测的姿势类别v'i；步骤2.4、利用式(1)构建姿势分类损失Lpose： Lpose＝crossentropy(v′i,vi) (1) 式(1)中， cros sentropy()表示交叉熵函数；步骤2.5、利用式(2)计算第j种姿势的特征fj，从而得到n种姿势的特征：式(2)中， nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特征集合的特征数量；步骤2.6、构建所述特征对齐器AL，包含一个全连接层：将所述第j种姿势的特征fj输入到所述特征对齐器AL中，得到对齐后的第j种姿势特征步骤3、构建表情描述文本特征提取器，包含：分词器Et，文本内特征编码器Eintra和文本间特征编码器Einter：步骤3.1、构建所述分词器Et，依次包含文本预处理层、特殊符号添加层、符号数字化层和序列对齐层；将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理，获得对应权　利　要　求　书 1/3 页 2 CN 114944002 A 2的第k个数字序列以及对应的第k个位置编码为pck；步骤3.2、构建文本内特征编码器Eintra，包含：嵌入层和多层Transformer编码器；所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而成；将所述第k个数字序列和第k个位置编码pck输入到所述文本内特征编码器Eintra中进行处理，获得第k个初步表情描述文本特征步骤3.3、构建所述文本间特征编码器Einter，包含：多层Transformer编码器；将所有初步表情描述文本特征输入到所述文本间特征编码器Einter中进行处理，获得最终表情描述文本特征其中，表示第k条表情文本描述特征；步骤4、构建跨模态模块，包含：图像视觉特征提取器Ev，姿势分类器Cp和表情分类器Ce：步骤4.1、构建所述图像视觉特征提取器Ev，包含部分ResNet5 0的层结构；所述部分ResNet50的层结构包含一个卷积层，一个批归一化层，一个ReLU激活函数层，一个最大池化层和三个深度残差块；将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理，获得第i个人脸图像xi的视觉特征步骤4.2、生成注意力图：步骤4.2.1、利用式(3)计算对齐后的第j种姿势特征第k种表情文本描述特征与视觉特征的余弦矩阵式(4)中， ×表示矩阵乘法， | ·|表示沿着第0维求和；步骤4.3.2、利用式(4)计算余弦矩阵经激活函数ReLU后的矩阵步骤4.3.3、利用式(5)计算矩阵经归一化函数Norm后的注意力图步骤4.4、利用式(6)计算第i个人脸图像xi的最终特征Fi：式(6)中， w和h分别表示视觉特征的宽度和高度，表示注意力图中按照先行后列的顺序排列后的第q个注意力权重，表示视觉特征中按照先行后列的顺序排列后的第q个视觉特征；步骤4.4、构建姿势分类器Cp和表情分类器Ce：权　利　要　求　书 2/3 页 3 CN 114944002 A 3

专利 文本描述辅助的姿势感知的人脸表情识别方法

专利文本描述辅助的姿势感知的人脸表情识别方法