说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210683619.1 (22)申请日 2022.06.16 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 申请人 招商银行股份有限公司 (72)发明人 王上飞 吴毅 常亚南 李国鸣  毛萌  (74)专利代理 机构 安徽省合肥新 安专利代理有 限责任公司 34101 专利代理师 陆丽莉 何梅生 (51)Int.Cl. G06V 40/16(2022.01) G06V 40/70(2022.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称 文本描述辅助的姿势感知的人脸表情识别 方法 (57)摘要 本发明公开了一种表情描述文本辅助的姿 势感知的人脸表情识别方法, 包括: 1、 根据表情 发生时的面部单元动作和对原始人脸图像的预 处理, 构建出多模态数据集合; 2、 构建姿势分类 器, 从人脸图像中提取姿势特征, 并选取各种姿 势的聚类中心作为对应的姿势特征; 3、 构建表情 描述文本 特征提取器, 从文本中提取表情文本特 征; 4、 融合人脸视觉特征, 姿势特征和表情文本 特征, 以跨模态的方式为视觉特征生成对应姿势 和表情的注 意力图, 并通过同时区分注意力图加 权后的视觉特征的姿势和表情类别, 从而得到最 优表情表征网络。 本发明能有效利用先验姿势特 征和表情描述文本丰富的语义信息, 从而能实现 任意姿势下的表情的精准识别。 权利要求书3页 说明书9页 附图2页 CN 114944002 A 2022.08.26 CN 114944002 A 1.一种文本描述辅助的姿势感知的人脸表情识别方法, 其特征在于, 是按如下步骤进 行: 步骤1、 构建多模态数据集 合A; 步骤1.1、 构建多模态数据的表情描述文本集合, 记 为 其中, sk表示第k条文 本, m为文本的总条数; 所述第 k条文本sk包含的单词, 记为 其中, tk,l表示所述 第k条文本sk中的第l个单词, Nk表示第k条文本信息的单词长度; 步骤1.2、 构建多模态数据的表情图像数据集 合: 获取真实人脸图像数据集并使用图像旋转、 裁剪以及归一化的方法进行预处理, 从而 得到表情图像数据集 其中, xi, yi, vi分别表示第i个人脸图像及对应的表 情类别和姿势类别, yi∈{1,2,…,m'}, vi∈{1,2,…,n}, N是表情图像数据集D中图像的数 量, m'是表情的总类别数, n是姿势的总类别数, 且m'=m; 步骤2、 构建姿势分类 器, 包含: 姿势特 征提取器Ep, 分类器Cp和特征对齐器AL: 步骤2.1、 构建所述姿势特 征提取器Ep为ResNet5 0结构: 所述ResNet50结构由一个卷积层, 一个批归一化层, 一个ReLU激活函数层, 一个最大池 化层, 四个深度残差块和一个平均池化层组成; 步骤2.2、 提取姿势特 征: 将所述表情图像数据集D的第i个人脸图像xi输入所述姿势 特征提取器Ep中, 获得第i个 人脸图像xi的姿势特 征 步骤2.3、 构建所述分类 器Cp, 包含一个全连接层: 将所述姿势特 征 输入到所述分类 器Cp中, 得到第i个人脸图像xi预测的姿势类别v'i; 步骤2.4、 利用式(1)构建姿势分类损失Lpose: Lpose=crossentropy(v′i,vi)   (1) 式(1)中, cros sentropy()表示交叉熵函数; 步骤2.5、 利用式(2)计算第j种姿势的特 征fj, 从而得到n种姿势的特 征: 式(2)中, nj表示预测的姿势类别v'i和真实的姿势类别vi都为第j种姿势类别的姿势特 征集合的特征数量; 步骤2.6、 构建所述特 征对齐器AL, 包含一个全连接层: 将所述第j种姿势的特征fj输入到所述特征对齐器AL中, 得到对齐后的第j种姿势特征 步骤3、 构建表情描述文本特征提取器, 包含: 分词器Et, 文本内特征编码器Eintra和文本 间特征编码器Einter: 步骤3.1、 构建所述分词 器Et, 依次包含文本预处理层、 特殊符号添加层、 符号数字化层 和序列对齐层; 将所述表情描述文本集合S的第k条文本sk输入到所述分词器Et中进行处理, 获得对应权 利 要 求 书 1/3 页 2 CN 114944002 A 2的第k个数字序列 以及对应的第k个位置编码为pck; 步骤3.2、 构建文本内特 征编码器Eintra, 包含: 嵌入层和多层Transformer编码器; 所述Transformer编码器由一个多头自注意力子层和一个前馈子层以残差方式连接而 成; 将所述第k个数字序列 和第k个位置编码pck输入到所述文本内特征编码器Eintra中进 行处理, 获得第k个初步表情描述文本特 征 步骤3.3、 构建所述文本间特 征编码器Einter, 包含: 多层Transformer编码器; 将所有初步表情描述文本特征 输入到所述文本间特征编码器Einter中进行处 理, 获得最终表情描述文本特 征 其中, 表示第k条表情文本描述特 征; 步骤4、 构建跨模态模块, 包 含: 图像视 觉特征提取器Ev, 姿势分类 器Cp和表情分类 器Ce: 步骤4.1、 构建所述图像视 觉特征提取器Ev, 包含部分ResNet5 0的层结构; 所述部分ResNet50的层 结构包含一个卷积层, 一个批归一化层, 一个ReLU激活函数层, 一个最大池化层和三个深度残差块; 将所述表情图像集D的第i个人脸图像xi输入到图像视觉特征提取器Ev中进行处理, 获 得第i个人脸图像xi的视觉特征 步骤4.2、 生成注意力图: 步骤4.2.1、 利用式(3)计算对齐后的第j种姿势特征 第k种表情文本描述特征 与 视觉特征 的余弦矩阵 式(4)中, ×表示矩阵乘法, | ·|表示沿着第0维求和; 步骤4.3.2、 利用式(4)计算 余弦矩阵 经激活函数ReLU后的矩阵 步骤4.3.3、 利用式(5)计算矩阵 经归一化函数Norm后的注意力图 步骤4.4、 利用式(6)计算第i个人脸图像xi的最终特 征Fi: 式(6)中, w和h分别表示视觉特征 的宽度和高度, 表示注意力图 中按照先 行后列的顺序排列后的第q个注 意力权重, 表示视觉特征 中按照先行后列的顺序排列 后的第q个视 觉特征; 步骤4.4、 构建姿势分类 器Cp和表情分类 器Ce:权 利 要 求 书 2/3 页 3 CN 114944002 A 3

.PDF文档 专利 文本描述辅助的姿势感知的人脸表情识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本描述辅助的姿势感知的人脸表情识别方法 第 1 页 专利 文本描述辅助的姿势感知的人脸表情识别方法 第 2 页 专利 文本描述辅助的姿势感知的人脸表情识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。