专利一种视频描述数据处理方法、装置以及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111637849.6 (22)申请日 2021.12.2 9 (71)申请人桂林远望智能通信科技有限公司地址 541004 广西壮族自治区桂林市七星区朝阳路信息产业园漓江科技园科研楼二楼 (72)发明人蔡晓东　王湘晴　 (74)专利代理机构北京轻创知识产权代理有限公司 11212 代理人尉保芳 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/783(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种视频描述数据处理方法、装置以及存储介质 (57)摘要本发明提供一种视频描述数据处理方法、装置以及存储介质，属于图像处理技术领域，方法包括： S1：导入视频数据，并构建编码器和多个顺序排列的LSTM长短期记忆网络； S2：通过编码器对视频数据进行编码得到视觉特征向量； S3：导入真实词向量，并将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组，并依次对每组 LSTM长短期记忆网络进行判断分析得到视频描述信息； S4：对视频描述信息进行损失分析得到目标视频描述模型； S5：导入待测视频数据，通过目标视频描述模型对待测视频数据进行视频描述得到视频描述结果。本发明解决了数据分布不一致的问题，能够让生成的词更贴近真实标签，进而提高了生成描述的准确性。权利要求书3页说明书7页附图1页 CN 114385856 A 2022.04.22 CN 114385856 A 1.一种视频描述数据处理方法，其特征在于，包括如下步骤： S1：导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM 长短期记忆网络； S2：通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述 LSTM长短期记忆网络一一对应的视觉特征向量； S3：导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息； S4：对所述视频描述信息进行损失分析，得到目标视频描述模型； S5：导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。 2.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述编码器包括2D ‑CNN 卷积神经网络和3D ‑CNN卷积神经网络，所述视频数据包括多个帧图像，所述步骤S2中，通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵的过程包括：通过所述2D ‑CNN卷积神经网络分别对各个所述帧图像进行二维特征提取，得到与所述帧图像对应的二维特征；通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特征提取，得到三维特征；对多个所述二维特征和所述三维特征进行拼接，得到视觉特征矩阵。 3.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S3中，依次对每组LSTM 长短期记忆网络进行判断分析，得到视频描述信息的过程包括： S31：将所述真实词向量作为输入词向量，对所有LSTM长短期记忆网络的数量进行统计，得到LSTM 长短期记忆网络总数； S32：每组LSTM长短期记忆网络中，通过所述LSTM长短期记忆网络对所述输入词向量进行解码，得到待处理词向量，并将所述 LSTM长短期记忆网络的排列位数作为训练执行次数； S33：对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率； S34：判断所述采样率是否大于预设判断值，若是，则将所述真实词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32；若否，则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量，并返回步骤S32，直至处理完所有的LSTM长短期记忆网络，从而得到多个待处理词向量，并根据所有的待处理词向量得到视频描述信息。 4.根据权利要求3所述的视频描述数据处理方法，其特征在于，所述步骤S33的过程包括：通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率，所述第一式为：其中， P为采样率， epoc h为训练执行次数， max_epoc h为LSTM长短期记忆网络总数。 5.根据权利要求1所述的视频描述数据处理方法，其特征在于，所述步骤S4的过程包括：权　利　要　求　书 1/3 页 2 CN 114385856 A 2利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注，得到多个词性标签；导入与所述词性标签对应的真实标签，并利用交叉熵损失算法计算所有的词性标签以及所有的真实标签的损失值，得到标签损失值；根据所述标签损失值对多个所述LSTM长短期记忆网络进行更新，并返回步骤S2，直至达到预设迭代次数，将更新后的视频描述模型作为目标视频描述模型。 6.一种视频描述数据处理装置，其特征在于，包括：模型构建模块，用于导入视频数据，并构建视频描述模型，所述视频描述模型包括编码器和多个顺序排列的LSTM 长短期记忆网络；编码器处理模块，通过所述编码器对所述视频数据进行编码，得到视觉特征矩阵，所述视觉特征矩阵包括分别与多个所述 LSTM长短期记忆网络一一对应的视觉特征向量；判断分析模块，用于导入与所述视觉特征向量对应的真实词向量，并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组，并依次对每组LSTM长短期记忆网络进行判断分析，得到视频描述信息；损失分析模块，用于对所述视频描述信息进行损失分析，得到目标视频描述模型；视频描述结果获得模块，用于导入待测视频数据，通过所述目标视频描述模型对所述待测视频数据进行视频描述，得到视频描述结果。 7.根据权利要求6所述的视频描述数据处理装置，其特征在于，所述编码器包括2D ‑CNN 卷积神经网络和 3D‑CNN卷积神经网络，所述视频数据包括多个帧图像，所述编码器处理模块具体用于：通过所述2D ‑CNN卷积神经网络分别对各个所述帧图像进行二维特征提取，得到与所述帧图像对应的二维特征；通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特征提取，得到三维特征；对多个所述二维特征和所述三维特征进行拼接，得到视觉特征矩阵。 8.根据权利要求6所述的视频描述数据处理装置，其特征在于，所述判断分析模块具体用于：将所述真实词向量作为输入词向量，对所有LSTM长短期记忆网络的数量进行统计，得到LSTM长短期记忆网络总数；每组LSTM长短期记忆网络中，通过所述LSTM长短期记忆网络对所述输入词向量进行解码，得到待处理词向量，并将所述 LSTM长短期记忆网络的排列位数作为训练执行次数；对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算，得到采样率；判断所述采样率是否大于预设判断值，若是，则将所述真实词向量和下一个视觉特征向量作为所述输入词向量，并通过下一个STM长短期记忆网络对所述输入词向量进行解码；若否，则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量，并通过下一个 STM长短期记忆网络对所述输入词向量进行解码，直至处理完所有的LSTM长短期记忆网络，从而得到多个待处理词向量，并根据所有的待处理词向量得到视频描述信息。 9.一种视频描述数据处理系统，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，当所述处理器执行所述计算机程序时，实现权　利　要　求　书 2/3 页 3 CN 114385856 A 3

专利 一种视频描述数据处理方法、装置以及存储介质

专利一种视频描述数据处理方法、装置以及存储介质