说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210511572.0 (22)申请日 2022.05.11 (71)申请人 南京邮电大 学 地址 210046 江苏省南京市栖霞区文苑路9 号 (72)发明人 刘天亮 肖允鸿 戴修斌  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 朱小兵 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 16/35(2019.01) (54)发明名称 基于视觉和语言的标注关联型短视频情感 识别方法及系统 (57)摘要 本发明公开了一种基于视觉和语言的标注 关联型短视频情感识别方法及系统。 首先分别提 取出视频流在空间维和时间维上的低层视觉特 征, 将其输入多头自注意力网络, 与视觉信息的 高层情感特征在特征层予以融合, 计算出短视频 视觉模态的情感分值矩阵; 接着使用词向量工具 将短视频的文本内容转化为词向量并利用情感 词典增强其情感极性; 再从其中提取语 言信息所 包含的高层语义特征, 并计算出短视频文本模态 的情感分值矩阵; 最后将情感分值矩阵与加权系 数矩阵相乘, 得到短视频的情感分类结果。 本发 明可以有效融合短视频视觉和语言的情感信息, 兼顾视频流的空时变化和文本内容的前后语义 关系, 突破单模态情感分类的局限性, 提高短视 频情感分类的准确率。 权利要求书3页 说明书9页 附图2页 CN 114882412 A 2022.08.09 CN 114882412 A 1.一种基于 视觉和语言的标注关联 型短视频情感识别方法, 其特 征在于, 包括: S1、 预处理短视频样本的视频流, 将其分割为若干图像帧和若干图像块, 并调整图像帧 和图像块的分辨 率; S2、 采用卷积神经网络分别提取图像帧、 图像块的视觉特征信息, 组成短视频的时间 维、 空间维低层特 征序列; S3、 将步骤S2中得到的两个特征序列分别输入多头自注意力神经网络, 串联计算出的 两个注意力特征向量得到高层情感视觉特征向量, 输入全连接层网络后使用分类器计算出 视觉模态的情感得分; S4、 联立步骤S2中的卷积神经网络, 以及步骤S3中的多头自注意力神经网络和全连接 层网络, 构成短视频的视觉特征情感识别网络, 根据步骤S3中视觉模态的情感得分计算损 失函数数值并使用梯度下降法优化迭代网络参数, 得到训练好的视 觉网络模型; S5、 利用词向量工具将标注关联型短视频的文本内容处理成词向量, 基于情感词典增 强词向量的情感极性, 得到情感极性增强的词向量序列; S6、 将步骤S5中得到的词向量序列输入多头自注意力神经网络提取出高层情 感语义特 征输入全连接层网络, 使用分类 器解码语义特 征, 计算出文本模态的情感得分; S7、 联立步骤S6 中的多头自注意力神经网络和全连接层网络构成短视频的语言特征情 感识别网络, 根据步骤S6中的文本模态的情感得分计算损失函数数值, 并使用梯度下降法 优化迭代网络参数, 得到训练好的语言网络模型; S8、 使用步骤S4和步骤S7中训练好的网络模型分别计算出短视频样本的视觉、 语言情 感得分, 联立两者得到情感矩阵, 根据不同模态、 不同情感类别的权重占比设计加权系数矩 阵, 利用先验知识限制加权系 数矩阵各参数 的取值范围, 设计求解步长遍历取值空间搜寻 最优解, 将情感矩阵和最优的加权系 数矩阵相乘得到情感分类概率矩阵, 根据概率矩阵中 对角线上 各元素的数值大小判断短视频的情感类别。 2.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法, 其特征 在于, 所述 步骤S1具体包括: S1.1、 分割短视频样本 视频流, 从第一帧开始等间隔选取其中F帧; S1.2、 调整步骤S1.1中图像帧的分辨 率为N×N; S1.3、 将步骤S1.2中N ×N的图像裁剪为规则的M2个图像块, 每个图像块的分辨率为 S1.4、 把步骤S1.3中每个裁剪位置上的前后F个图像块组成一个图像块流, M2个裁剪位 置上共有M2个图像块 流。 3.根据权利要求2所述的基于视觉和语言的标注关联型短视频情感识别方法, 其特征 在于, 所述 步骤S2中包括: S2.1、 将步骤S1.2中的N ×N图像帧输入CNN网络, 提取短视频样本在时间维度上的低层 视觉特征, F帧图像组成长度为F的特 征序列; S2.2、 将步骤S1.4中的 图像块流输入C3D网络, 提取短视频样本在空间维度上 的低层视 觉特征, M2个图像块 流组成长度为M2的特征序列。权 利 要 求 书 1/3 页 2 CN 114882412 A 24.根据权利要求3所述的基于视觉和语言的标注关联型短视频情感识别方法, 其特征 在于, 所述 步骤S3中包括: S3.1、 在步骤S2.1中的特征序列中嵌入位置信息并加入类别标记, 组成长度 为F+1的特 征序列后输入多头自注意力网络, 计算得到时间特 征序列的注意力特 征向量; S3.2、 在步骤S2.2中的特征序列中嵌入 位置信息并加入类别标记, 组成长度为M2+1的特 征序列后输入多头自注意力网络, 计算得到空间特 征序列的注意力特 征向量; S3.3、 串联步骤S3.1和步骤S3.2中的注意力特征向量, 得到短视频的高层情感视觉特 征向量; S3.4、 将步骤S3.3中的高层情感视觉特征输入全连接层网络, 使用Softmax分类器计算 短视频的视 觉情感得分: 其中, K为情感类别数目, Scorej为第j类情感的情感得分, j=1,2,...,K, xi为分类器输 入向量x第i维上的数值, Softmax分类 器通过向量指数归一 化的方式计算各情感类别得分。 5.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法, 其特征 在于, 所述 步骤S5中包括: S5.1、 使用词向量工具将短视频的文本内容 转化为对应词向量序列; S5.2、 将步骤S5.1中得到的词向量乘以增强因子α 的自然指数得到情感极性增强词向 量 式中, x为原词向量, pos(x)和neg(x)分别为对应单词在情感词典中的积 极情感得分和 消极情感得分, 增强因子α 由两者 求平均得到 。 6.根据权利要求1所述的基于视觉和语言的标注关联型短视频情感识别方法, 其特征 在于, 所述 步骤S8中包括: S8.1、 联立步骤S4、 步骤S7中网络模型计算出的视觉、 语言情感得分得到标注关联型短 视频的情感矩阵S: 为视觉模态第i类情感的情感得分, 为文本模态第i类情感的情感得分; S8.2、 根据视 觉、 文本模态不同情感类别的权 重占比设计加权系数矩阵W: 为视觉模态第i类情感的权 重占比, 为文本模态第i类情感的权 重占比;权 利 要 求 书 2/3 页 3 CN 114882412 A 3

.PDF文档 专利 基于视觉和语言的标注关联型短视频情感识别方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉和语言的标注关联型短视频情感识别方法及系统 第 1 页 专利 基于视觉和语言的标注关联型短视频情感识别方法及系统 第 2 页 专利 基于视觉和语言的标注关联型短视频情感识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:39上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。