专利基于视觉和语言的标注关联型短视频情感识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210511572.0 (22)申请日 2022.05.11 (71)申请人南京邮电大学地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人刘天亮　肖允鸿　戴修斌　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师朱小兵 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称基于视觉和语言的标注关联型短视频情感识别方法及系统 (57)摘要本发明公开了一种基于视觉和语言的标注关联型短视频情感识别方法及系统。首先分别提取出视频流在空间维和时间维上的低层视觉特征，将其输入多头自注意力网络，与视觉信息的高层情感特征在特征层予以融合，计算出短视频视觉模态的情感分值矩阵；接着使用词向量工具将短视频的文本内容转化为词向量并利用情感词典增强其情感极性；再从其中提取语言信息所包含的高层语义特征，并计算出短视频文本模态的情感分值矩阵；最后将情感分值矩阵与加权系数矩阵相乘，得到短视频的情感分类结果。本发明可以有效融合短视频视觉和语言的情感信息，兼顾视频流的空时变化和文本内容的前后语义关系，突破单模态情感分类的局限性，提高短视频情感分类的准确率。权利要求书3页说明书9页附图2页 CN 114882412 A 2022.08.09 CN 114882412 A 1.一种基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，包括： S1、预处理短视频样本的视频流，将其分割为若干图像帧和若干图像块，并调整图像帧和图像块的分辨率； S2、采用卷积神经网络分别提取图像帧、图像块的视觉特征信息，组成短视频的时间维、空间维低层特征序列； S3、将步骤S2中得到的两个特征序列分别输入多头自注意力神经网络，串联计算出的两个注意力特征向量得到高层情感视觉特征向量，输入全连接层网络后使用分类器计算出视觉模态的情感得分； S4、联立步骤S2中的卷积神经网络，以及步骤S3中的多头自注意力神经网络和全连接层网络，构成短视频的视觉特征情感识别网络，根据步骤S3中视觉模态的情感得分计算损失函数数值并使用梯度下降法优化迭代网络参数，得到训练好的视觉网络模型； S5、利用词向量工具将标注关联型短视频的文本内容处理成词向量，基于情感词典增强词向量的情感极性，得到情感极性增强的词向量序列； S6、将步骤S5中得到的词向量序列输入多头自注意力神经网络提取出高层情感语义特征输入全连接层网络，使用分类器解码语义特征，计算出文本模态的情感得分； S7、联立步骤S6 中的多头自注意力神经网络和全连接层网络构成短视频的语言特征情感识别网络，根据步骤S6中的文本模态的情感得分计算损失函数数值，并使用梯度下降法优化迭代网络参数，得到训练好的语言网络模型； S8、使用步骤S4和步骤S7中训练好的网络模型分别计算出短视频样本的视觉、语言情感得分，联立两者得到情感矩阵，根据不同模态、不同情感类别的权重占比设计加权系数矩阵，利用先验知识限制加权系数矩阵各参数的取值范围，设计求解步长遍历取值空间搜寻最优解，将情感矩阵和最优的加权系数矩阵相乘得到情感分类概率矩阵，根据概率矩阵中对角线上各元素的数值大小判断短视频的情感类别。 2.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，所述步骤S1具体包括： S1.1、分割短视频样本视频流，从第一帧开始等间隔选取其中F帧； S1.2、调整步骤S1.1中图像帧的分辨率为N×N； S1.3、将步骤S1.2中N ×N的图像裁剪为规则的M2个图像块，每个图像块的分辨率为 S1.4、把步骤S1.3中每个裁剪位置上的前后F个图像块组成一个图像块流， M2个裁剪位置上共有M2个图像块流。 3.根据权利要求2所述的基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，所述步骤S2中包括： S2.1、将步骤S1.2中的N ×N图像帧输入CNN网络，提取短视频样本在时间维度上的低层视觉特征， F帧图像组成长度为F的特征序列； S2.2、将步骤S1.4中的图像块流输入C3D网络，提取短视频样本在空间维度上的低层视觉特征， M2个图像块流组成长度为M2的特征序列。权　利　要　求　书 1/3 页 2 CN 114882412 A 24.根据权利要求3所述的基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，所述步骤S3中包括： S3.1、在步骤S2.1中的特征序列中嵌入位置信息并加入类别标记，组成长度为F+1的特征序列后输入多头自注意力网络，计算得到时间特征序列的注意力特征向量； S3.2、在步骤S2.2中的特征序列中嵌入位置信息并加入类别标记，组成长度为M2+1的特征序列后输入多头自注意力网络，计算得到空间特征序列的注意力特征向量； S3.3、串联步骤S3.1和步骤S3.2中的注意力特征向量，得到短视频的高层情感视觉特征向量； S3.4、将步骤S3.3中的高层情感视觉特征输入全连接层网络，使用Softmax分类器计算短视频的视觉情感得分：其中， K为情感类别数目， Scorej为第j类情感的情感得分， j＝1,2,...,K， xi为分类器输入向量x第i维上的数值， Softmax分类器通过向量指数归一化的方式计算各情感类别得分。 5.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，所述步骤S5中包括： S5.1、使用词向量工具将短视频的文本内容转化为对应词向量序列； S5.2、将步骤S5.1中得到的词向量乘以增强因子α 的自然指数得到情感极性增强词向量式中， x为原词向量， pos(x)和neg(x)分别为对应单词在情感词典中的积极情感得分和消极情感得分，增强因子α 由两者求平均得到。 6.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法，其特征在于，所述步骤S8中包括： S8.1、联立步骤S4、步骤S7中网络模型计算出的视觉、语言情感得分得到标注关联型短视频的情感矩阵S：为视觉模态第i类情感的情感得分，为文本模态第i类情感的情感得分； S8.2、根据视觉、文本模态不同情感类别的权重占比设计加权系数矩阵W：为视觉模态第i类情感的权重占比，为文本模态第i类情感的权重占比；权　利　要　求　书 2/3 页 3 CN 114882412 A 3

专利 基于视觉和语言的标注关联型短视频情感识别方法及系统

专利基于视觉和语言的标注关联型短视频情感识别方法及系统