专利基于多模态融合的人脸预测方法及相关设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210363355.1 (22)申请日 2022.04.08 (65)同一申请的已公布的文献号申请公布号 CN 114463825 A (43)申请公布日 2022.05.10 (73)专利权人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人王光宇　冯发金　张平　王凯　 (74)专利代理机构北京风雅颂专利代理有限公司 11403 专利代理师金含 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 US 202016 0559 A1,2020.0 5.21 CN 113241135 A,2021.08.10 赵青等.基于分层特征化网络的三维人脸识别. 《计算机应用》 .2020,(第09期),42-46 页. 审查员王晓时 (54)发明名称基于多模态融合的人脸预测方法及相关设备 (57)摘要本公开提供一种基于多模态融合的人脸预测方法及相关设备。该方法包括：获取带有纹理的3D人脸信息数据，将其划分为点云坐标和纹理图像，并将点云坐标处理成几何特征向量、纹理图像处理成纹理特征向量；将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；将多个所述无序词向量分别输入到多个预先构建的Tran sformer融合模型进行融合，得到多个融合特征向量；将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。本公开提供的一种基于多模态融合的人脸预测方法及相关设备，将点云的空间几何信息与贴图的纹理图像信息融合，有效提高了人脸预测的精度。权利要求书2页说明书9页附图5页 CN 114463825 B 2022.07.15 CN 114463825 B 1.一种基于多模态融合的人脸预测方法，包括：获取带有纹理的3D人脸信息数据；将所述3D人脸信息数据划分为点云坐标和纹理图像；将所述点云坐标输入到分层点云编码器，输出多组几何特征向量，将所述纹理图像输入到分层纹理图像编码器，输出多组纹理特征向量；将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；将多个所述无序词向量分别输入到多个预先构建的自注意力变换网络Transformer融合模型进行融合，得到多个融合特征向量；所述的自注意力变换网络Transformer融合模型包括加入了特征类型嵌入层的自注意力变换网络Transformer层；将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。 2.根据权利要求1所述的方法，其中，所述分层点云编码器为Po intNet++、 PointWeb或Po intConv；所述分层纹理图像编码器为VG G、 GoogleNet或Resnet。 3.根据权利要求1所述的方法，其中，所述平衡处理包括：采用RoiAlign方法对所述几何特征向量和所述纹理特征向量进行整形。 4.根据权利要求1所述的方法，其中，所述Transformer融合模型包括Transformer层、 1x1卷积层和一维平均池化层，将多个所述无序词向量分别输入到多个预先构建的 Transformer融合模型进行融合，得到多个融合特征向量，包括：将所述无序词向量输入至所述Transformer层，得到中间向量，再将所述中间向量输入至所述1x1卷积层和一维平均池化层，得到所述融合特征向量。 5.根据权利要求4所述的方法，其中，所述Transformer层按照输入顺序依次包括特征类型嵌入层、一个多头自注意力机制和一个多层感知机，所述多头自注意力机制和所述多层感知机之前分别各设置一个层范数LayerN orm和一个残差层。 6.根据权利要求1所述的方法，其中，一个所述多层感知机对应一个预测任务，响应于确定存在多个所述预测任务，将多个所述融合特征向量分别输入至多个所述多层感知机中，经由多个所述多层感知机输出对应不同所述预测任务的所述预测结果。 7.根据权利要求6所述的方法，其中，所述多层感知机通过最小化多任务预测损失函数进行所述预训练，所述多任务预测损失函数具体为其中， n是任务总数， Lj是第j个任务的均方误差， L是所有任务的均方差求和， j的取值范围是1~n。 8.一种基于多模态融合的人脸预测装置，包括：输入模块，被配置为获取带有纹理的3D人脸信息数据；特征提取模块，被配置为将所述3D人脸信息数据划分为点云坐标和纹理图像；将所述点云坐标输入到分层点云编码器，输出多组几何特征向量，将所述纹理图像输入到分层纹理图像编码器，输出多组纹理特征向量；权　利　要　求　书 1/2 页 2 CN 114463825 B 2将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；融合模块，被配置为将多个所述无序词向量分别输入到多个预先构建的Transformer 融合模型进行融合，得到多个融合特征向量；自注意力变换网络Transformer融合模型包括加入了特征类型嵌入层的自注意力变换网络Transformer层；输出模块，被配置为将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。 10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。权　利　要　求　书 2/2 页 3 CN 114463825 B 3

专利 基于多模态融合的人脸预测方法及相关设备

专利基于多模态融合的人脸预测方法及相关设备