专利一种视频描述方法、装置以及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111640845.3 (22)申请日 2021.12.2 9 (71)申请人桂林电子科技大学地址 541004 广西壮族自治区桂林市七星区金鸡路1号 (72)发明人蔡晓东　黄庆楠　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 代理人何佩英 (51)Int.Cl. G06F 30/20(2020.01) G06K 9/62(2022.01) G06F 119/02(2020.01) (54)发明名称一种视频描述方法、装置以及存储介质 (57)摘要本发明提供一种视频描述方法、装置以及存储介质，属于图像处理技术领域，方法包括： S1：导入多个视频数据，并分别对各个视频数据进行第一次融合分析得到第一融合特征； S2：构建训练模型，根据多个第一融合特征对训练模型进行训练得到目标视频描述模型； S3：分别对各个视频数据进行第二次融合分析得到第二融合特征； S4：通过目标视频描述模型对多个第二融合特征进行视频描述得到视频描述结果。本发明能够不需要人工监督来训练生成描述，降低了人工成本，且在图片特征层面比传统的视频描述模型描述准确率更高，增加了特征关系的紧密度，利于视频描述模型准确性的提升。权利要求书3页说明书7页附图1页 CN 114386259 A 2022.04.22 CN 114386259 A 1.一种视频描述方法，其特征在于，包括如下步骤： S1：导入视频数据集，所述视频数据集包括多个视频数据，并分别对各个所述视频数据进行第一次融合分析，得到与各个所述视频数据对应的第一融合特征； S2：构建训练模型，根据多个所述第一融合特征对所述训练模型进行训练，得到目标视频描述模型； S3：分别对各个所述视频数据进行第二次融合分析，得到与各个所述视频数据对应的第二融合特征； S4：通过所述目标视频描述模型对多个所述第二融合特征进行视频描述，得到视频描述结果。 2.根据权利要求1所述的视频描述方法，其特征在于，所述步骤S1中，分别对各个所述视频数据进行第一次融合分析，得到与各个所述视频数据对应的第一融合特征的过程包括：基于卷积神经网络，通过所述卷积神经网络分别对各个所述视频数据进行第一次特征提取，得到与各个所述视频数据对应的第一2D 视觉特征以及与各个所述视频数据对应的第一3D运动特征；分别对各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征进行第一门控融合，得到与各个所述视频数据对应的第一融合特征。 3.根据权利要求2所述的视频描述方法，其特征在于，所述分别对各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征进行第一门控融合，得到与各个所述视频数据对应的第一融合特征的过程包括：通过第一式分别计算各个所述第一2D视觉特征以及与各个所述视频数据对应的第一 3D运动特征的融合特征，得到与各个所述视频数据对应的第一融合特征，所述第一式为： xi＝σ(W*rm+b)*fm+fm，其中， xi为第一融合特征， σ 为非线性激活函数， W和b均为学习参数， rm为2D第一视觉特征， fm为第一3D运动特征。 4.根据权利要求2所述的视频描述方法，其特征在于，所述步骤S2的过程包括：构建训练网络，所述训练网络包括视觉特征重构网络和原始视频描述模型；基于LSTM长短期记忆网络，通过所述LSTM长短期记忆网络分别对各个所述第一融合特征进行解码，得到与各个所述第一融合特征对应的隐藏状态信息；通过所述视觉特征重构网络分别对各个所述隐藏状态信息进行特征重构，得到与各个所述第一融合特征对应的第二2D视觉特征以及与各个所述第一融合特征对应的第二3D运动特征；分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一2D视觉特征的相似度损失，得到与各个所述视频数据对应的2D特征相似度损失值；分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一3D运动特征的相似度损失，得到与各个所述视频数据对应的3D特征相似度损失值；判断所有的2D特征相似度损失值以及所有的3D特征相似度损失值是否均大于预设判断阈值，若是，则根据多个所述2D特征相似度损失值和多个所述3D特征相似度损失值对所述原始视频描述模型进行参数更新，并返回步骤S2中，再次通过所述视觉特征重构网络分权　利　要　求　书 1/3 页 2 CN 114386259 A 2别对各个所述隐藏状态信息进行特征重构；若否，则将所述原始视频描述模型作为目标视频描述模型。 5.根据权利要求4所述的视频描述方法，其特征在于，所述分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一2D 视觉特征的相似度损失，得到与各个所述视频数据对应的2D特征相似度损失值的过程包括：通过第二式分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一 2D视觉特征的相似度损失，得到与各个所述视频数据对应的2D特征相似度损失值，第二式为： L1＝cos(rm， pm)，其中， L1为2D特征相似度损失值， rm为第一2D视觉特征， γ为参数， pm为第二2D视觉特征， cos为余弦距离函数。 6.根据权利要求4所述的视频描述方法，其特征在于，所述分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一3D运动特征的相似度损失，得到与各个所述视频数据对应的3D特征相似度损失值的过程包括：通过第三式分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一 3D运动特征的相似度损失，得到与各个所述视频数据对应的3D特征相似度损失值，所述第三式为： L2＝cos(fm， km)，其中， L2为3D特征相似度损失值， fm为第一3D运动特征， km为第二3D运动特征， cos为余弦距离函数。 7.根据权利要求2所述的视频描述方法，其特征在于，所述步骤S3的过程包括：通过所述卷积神经网络分别对各个所述视频数据进行第二次特征提取，得到与各个所述视频数据对应的第三2D视觉特征以及与各个所述视频数据对应的第三3D运动特征；分别对各个所述第三2D视觉特征以及与各个所述视频数据对应的第三3D运动特征进行第二门控融合，得到与各个所述视频数据对应的第二融合特征。 8.一种视频描述装置，其特征在于，包括：第一融合分析模块，用于导入视频数据集，所述视频数据集包括多个视频数据，并分别对各个所述视频数据进行第一次融合分析，得到与各个所述视频数据对应的第一融合特征；模型训练模块，用于构建训练模型，根据多个所述第一融合特征对所述训练模型进行训练，得到目标视频描述模型；第二融合分析模块，用于分别对各个所述视频数据进行第二次融合分析，得到与各个所述视频数据对应的第二融合特征；视频描述结果获得模块，用于通过所述目标视频描述模型对多个所述第二融合特征进行视频描述，得到视频描述结果。 9.一种视频描述系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现如权利要求1至7任一项所述的视频描述方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在权　利　要　求　书 2/3 页 3 CN 114386259 A 3

专利 一种视频描述方法、装置以及存储介质

专利一种视频描述方法、装置以及存储介质