说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111637849.6 (22)申请日 2021.12.2 9 (71)申请人 桂林远望智能通信科技有限公司 地址 541004 广西壮 族自治区桂林市七 星 区朝阳路信息产业园漓江科技园科研 楼二楼 (72)发明人 蔡晓东 王湘晴  (74)专利代理 机构 北京轻创知识产权代理有限 公司 11212 代理人 尉保芳 (51)Int.Cl. G06F 16/78(2019.01) G06F 16/783(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种视频描述数据处理方法、 装置以及存储 介质 (57)摘要 本发明提供一种视频描述数据处理方法、 装 置以及存储介质, 属于图像处理技术领域, 方法 包括: S1: 导入视频数据, 并构建编码器和多个顺 序排列的LSTM长短期记忆网络; S2: 通过编码器 对视频数据进行编码得到视觉特征向量; S3: 导 入真实词向量, 并将LSTM长短期记忆网络、 视觉 特征向量以及真实词向量为一组, 并依次对每组 LSTM长短期记忆网络进行判断分析得到视频描 述信息; S4: 对视频描述信息进行损 失分析得到 目标视频描述模型; S5: 导入待测视 频数据, 通过 目标视频描述模型对待测视频数据进行视频描 述得到视频描述结果。 本发明解决了数据分布不 一致的问题, 能够让生成的词更贴近真实标签, 进而提高了生成描述的准确性。 权利要求书3页 说明书7页 附图1页 CN 114385856 A 2022.04.22 CN 114385856 A 1.一种视频描述数据处 理方法, 其特 征在于, 包括如下步骤: S1: 导入视频数据, 并构建视频描述模型, 所述视频描述模型包括编码器和多个顺序排 列的LSTM 长短期记 忆网络; S2: 通过所述编码器对所述视频数据进行编码, 得到视觉特征矩阵, 所述视觉特征矩阵 包括分别与多个所述 LSTM长短期记 忆网络一 一对应的视 觉特征向量; S3: 导入与所述视觉特征向量对应的真实词向量, 并将所述LSTM长短期记忆网络、 所述 视觉特征向量以及所述真实词向量为一组, 并依次对每组LSTM长 短期记忆网络进 行判断分 析, 得到视频描述信息; S4: 对所述视频描述信息进行损失分析, 得到目标视频描述模型; S5: 导入待测视频数据, 通过所述目标视频描述模型对所述待测视频数据进行视频描 述, 得到视频描述结果。 2.根据权利 要求1所述的视频描述数据处理方法, 其特征在于, 所述编码器包括2D ‑CNN 卷积神经网络和3D ‑CNN卷积神经网络, 所述视频数据包括多个帧图像, 所述步骤S2中, 通过 所述编码器对所述视频 数据进行编码, 得到 视觉特征矩阵的过程包括: 通过所述2D ‑CNN卷积神经网络分别 对各个所述帧图像进行二维特征提取, 得到与所述 帧图像对应的二维特 征; 通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特 征提取, 得到三维特 征; 对多个所述 二维特征和所述 三维特征进行拼接, 得到 视觉特征矩阵。 3.根据权利要求1所述的视频描述数据处理方法, 其特征在于, 所述步骤S3中, 依次对 每组LSTM 长短期记 忆网络进行判断分析, 得到 视频描述信息的过程包括: S31: 将所述真实词向量作为输入词向量, 对所有LSTM长短期记忆网络的数量进行统 计, 得到LSTM 长短期记 忆网络总数; S32: 每组LSTM长短期记忆网络中, 通过所述LSTM长短期记忆网络对所述输入词向量进 行解码, 得到待处 理词向量, 并将所述 LSTM长短期记 忆网络的排列位数作为训练执 行次数; S33: 对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算, 得到采 样率; S34: 判断所述采样率是否大于预设判断值, 若是, 则将所述真实词向量和下一个视觉 特征向量作为所述输入词向量, 并返回步骤S32; 若否, 则将所述待处理词向量和下一个视 觉特征向量作为所述输入词向量, 并返回步骤S32, 直至处理完所有的LSTM长短期记忆网 络, 从而得到多个待处 理词向量, 并根据所有的待处 理词向量得到 视频描述信息 。 4.根据权利要求3所述的视频描述数据处理方法, 其特征在于, 所述步骤S33的过程包 括: 通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算, 得到采样率, 所述第一式为: 其中, P为采样率, epoc h为训练执 行次数, max_epoc h为LSTM长短期记 忆网络总数。 5.根据权利要求1所述的视频描述数据处理方法, 其特征在于, 所述步骤S4的过程包 括:权 利 要 求 书 1/3 页 2 CN 114385856 A 2利用Spacy  Tagging Tool工具对所述视频描述信息进行序列标注, 得到多个词性标 签; 导入与所述词性标签对应的真实标签, 并利用交叉熵损失算法计算所有的词性标签以 及所有的真实标签的损失值, 得到标签损失值; 根据所述标签损失值对多个所述LSTM长短期记忆网络进行更新, 并返回步骤S2, 直至 达到预设迭代次数, 将更新后的视频描述模型作为目标视频描述模型。 6.一种视频描述数据处 理装置, 其特 征在于, 包括: 模型构建模块, 用于导入视频数据, 并构建视频描述模型, 所述视频描述模型包括编码 器和多个顺序排列的LSTM 长短期记 忆网络; 编码器处理模块, 通过所述编码器对所述视频数据进行编码, 得到视觉特征矩阵, 所述 视觉特征矩阵包括分别与多个所述 LSTM长短期记 忆网络一 一对应的视 觉特征向量; 判断分析模块, 用于导入与所述视觉特征向量对应的真实词向量, 并将所述LSTM长短 期记忆网络、 所述视觉特征向量以及所述真实词向量为一组, 并依次对每组LSTM长短期记 忆网络进行判断分析, 得到 视频描述信息; 损失分析模块, 用于对所述视频描述信息进行损失分析, 得到目标视频描述模型; 视频描述结果获得模块, 用于导入待测视频数据, 通过所述目标视频描述模型对所述 待测视频 数据进行视频描述, 得到 视频描述结果。 7.根据权利 要求6所述的视频描述数据处理装置, 其特征在于, 所述编码器包括2D ‑CNN 卷积神经网络和 3D‑CNN卷积神经网络, 所述视频数据包括多个帧图像, 所述编码器处理模 块具体用于: 通过所述2D ‑CNN卷积神经网络分别 对各个所述帧图像进行二维特征提取, 得到与所述 帧图像对应的二维特 征; 通过所述3D‑CNN卷积神经网络对多个所述帧图像进行三维特 征提取, 得到三维特 征; 对多个所述 二维特征和所述 三维特征进行拼接, 得到 视觉特征矩阵。 8.根据权利要求6所述的视频描述数据处理装置, 其特征在于, 所述判断分析模块具体 用于: 将所述真实词向量作为输入词向量, 对所有LSTM长短期记忆网络的数量进行统计, 得 到LSTM长短期记 忆网络总数; 每组LSTM长短期记忆网络中, 通过所述LSTM长短期记忆网络对所述输入词向量进行解 码, 得到待处 理词向量, 并将所述 LSTM长短期记 忆网络的排列位数作为训练执 行次数; 对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算, 得到采样 率; 判断所述采样率是否大于预设判断值, 若是, 则将所述真实词向量和下一个视觉特征 向量作为所述输入词向量, 并通过下一个STM长 短期记忆网络对所述输入词向量进 行解码; 若否, 则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量, 并通过下一个 STM长短期记忆网络对 所述输入词向量进行解码, 直至处理完所有的LSTM长短期记忆网络, 从而得到多个待处 理词向量, 并根据所有的待处 理词向量得到 视频描述信息 。 9.一种视频描述数据处理系统, 包括存储器、 处理器以及存储在所述存储器中并可在 所述处理器上运行的计算机程序, 其特征在于, 当所述处理器执行所述计算机程序时, 实现权 利 要 求 书 2/3 页 3 CN 114385856 A 3

.PDF文档 专利 一种视频描述数据处理方法、装置以及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频描述数据处理方法、装置以及存储介质 第 1 页 专利 一种视频描述数据处理方法、装置以及存储介质 第 2 页 专利 一种视频描述数据处理方法、装置以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。