说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111640845.3 (22)申请日 2021.12.2 9 (71)申请人 桂林电子科技大 学 地址 541004 广西壮 族自治区桂林市七 星 区金鸡路1号 (72)发明人 蔡晓东 黄庆楠  (74)专利代理 机构 北京轻创知识产权代理有限 公司 11212 代理人 何佩英 (51)Int.Cl. G06F 30/20(2020.01) G06K 9/62(2022.01) G06F 119/02(2020.01) (54)发明名称 一种视频描述方法、 装置以及存 储介质 (57)摘要 本发明提供一种视频描述方法、 装置以及存 储介质, 属于图像处理技术领域, 方法包括: S1: 导入多个视频数据, 并分别对各个视频数据进行 第一次融合分析得到第一融合特征; S2: 构建训 练模型, 根据多个第一融合特征对训练模型进行 训练得到目标视频描述模型; S3: 分别对各个视 频数据进行第二次融合分析得到第二融合特征; S4: 通过目标视频描述模型对多个第二融合特征 进行视频描述得到视频描述结果。 本发明能够不 需要人工监督来训练生成描述, 降低了人工成 本, 且在图片特征层面比传统的视频描述模型描 述准确率更高, 增加了特征关系的紧密度, 利于 视频描述模型准确性的提升 。 权利要求书3页 说明书7页 附图1页 CN 114386259 A 2022.04.22 CN 114386259 A 1.一种视频描述方法, 其特 征在于, 包括如下步骤: S1: 导入视频数据集, 所述视频数据集包括多个视频数据, 并分别对各个所述视频数据 进行第一次融合分析, 得到与各个所述视频 数据对应的第一融合特 征; S2: 构建训练模型, 根据多个所述第一融合特征对所述训练模型进行训练, 得到目标视 频描述模型; S3: 分别对各个所述视频数据进行第二次融合分析, 得到与各个所述视频数据对应的 第二融合特 征; S4: 通过所述目标视频描述模型对多个所述第二融合特征进行视频描述, 得到视频描 述结果。 2.根据权利要求1所述的视频描述方法, 其特征在于, 所述步骤S1中, 分别对各个所述 视频数据进行第一次融合分析, 得到与各个所述视频数据对应的第一融合特征的过程包 括: 基于卷积神经网络, 通过所述卷积神经网络分别对各个所述视频数据进行第 一次特征 提取, 得到与各个所述视频数据对应的第一2D 视觉特征以及与各个所述视频数据对应的第 一3D运动特 征; 分别对各个所述第一2D视觉特征以及与各个所述视频数据对应的第一3D运动特征进 行第一门控融合, 得到与各个所述视频 数据对应的第一融合特 征。 3.根据权利要求2所述的视频描述方法, 其特征在于, 所述分别对各个所述第 一2D视觉 特征以及与各个所述视频数据对应的第一3D运动特征进行第一门控融合, 得到与各个所述 视频数据对应的第一融合特 征的过程包括: 通过第一式分别计算各个所述第一2D视觉特征以及与各个所述视频数据对应的第一 3D运动特 征的融合特 征, 得到与各个所述视频 数据对应的第一融合特 征, 所述第一式为: xi=σ(W*rm+b)*fm+fm, 其中, xi为第一 融合特征, σ 为非线性激活函数, W和b均为学习参数, rm为2D第一视觉特 征, fm为第一3D运动特 征。 4.根据权利要求2所述的视频描述方法, 其特 征在于, 所述 步骤S2的过程包括: 构建训练网络, 所述训练网络包括视 觉特征重构网络和原 始视频描述模型; 基于LSTM长短期记忆网络, 通过所述LSTM长短期记忆网络分别对各个所述第一融合特 征进行解码, 得到与各个所述第一融合特 征对应的隐藏状态信息; 通过所述视觉特征重构网络分别对各个所述隐藏状态信 息进行特征重构, 得到与 各个 所述第一融合特征对应的第二2D视觉特征以及与各个所述第一融合特征对应的第二3D运 动特征; 分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一2D视觉特征 的相似度损失, 得到与各个所述视频 数据对应的2D特 征相似度损失值; 分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一3D运动特征 的相似度损失, 得到与各个所述视频 数据对应的3D特 征相似度损失值; 判断所有的2D特征相似度损失值以及所有的3D特征相似度损失值是否均大于预设判 断阈值, 若是, 则根据多个所述2D特征相 似度损失值和多个所述3D特征相 似度损失值对所 述原始视频描述模型进行参数更新, 并返回步骤S2中, 再次通过所述视觉特征重构网络分权 利 要 求 书 1/3 页 2 CN 114386259 A 2别对各个所述隐藏状态信息进行特征重构; 若否, 则将所述原始视频描述模型作为 目标视 频描述模型。 5.根据权利要求4所述的视频描述方法, 其特征在于, 所述分别计算各个所述第 二2D视 觉特征以及与各个所述视频数据对应的第一2D 视觉特征的相似度损失, 得到与各个所述视 频数据对应的2D特 征相似度损失值的过程包括: 通过第二式分别计算各个所述第二2D视觉特征以及与各个所述视频数据对应的第一 2D视觉特征的相 似度损失, 得到与各个所述视频数据对应的2D特征相似度损失值, 第二式 为: L1=cos(rm, pm), 其中, L1为2D特征相似度损失值, rm为第一2D视觉特征, γ为参数, pm为第二2D视觉特 征, cos为 余弦距离函数。 6.根据权利要求4所述的视频描述方法, 其特征在于, 所述分别计算各个所述第 二3D运 动特征以及与各个所述视频数据对应的第一3D运动特征的相似度损失, 得到与各个所述视 频数据对应的3D特 征相似度损失值的过程包括: 通过第三式分别计算各个所述第二3D运动特征以及与各个所述视频数据对应的第一 3D运动特征的相 似度损失, 得到与各个所述视频数据对应的3D特征相似度损失值, 所述第 三式为: L2=cos(fm, km), 其中, L2为3D特征相似度损失值, fm为第一3D运动特征, km为第二3D运动特征, cos为余 弦距离函数。 7.根据权利要求2所述的视频描述方法, 其特 征在于, 所述 步骤S3的过程包括: 通过所述卷积神经网络分别对各个所述视频数据进行第 二次特征提取, 得到与各个所 述视频数据对应的第三2D视 觉特征以及与各个所述视频 数据对应的第三3D运动特 征; 分别对各个所述第三2D视觉特征以及与各个所述视频数据对应的第三3D运动特征进 行第二门控融合, 得到与各个所述视频 数据对应的第二融合特 征。 8.一种视频描述装置, 其特 征在于, 包括: 第一融合分析模块, 用于导入视频数据集, 所述视频数据集包括多个视频数据, 并分别 对各个所述视频数据进行第一次融合分析, 得到与各个所述视频数据对应的第一融合特 征; 模型训练模块, 用于构建训练模型, 根据多个所述第一融合特征对所述训练模型进行 训练, 得到目标视频描述模型; 第二融合分析模块, 用于分别对各个所述视频数据进行第二次融合分析, 得到与各个 所述视频 数据对应的第二融合特 征; 视频描述结果获得模块, 用于通过所述目标视频描述模型对多个所述第 二融合特征进 行视频描述, 得到 视频描述结果。 9.一种视频描述系统, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理 器上运行的计算机程序, 其特征在于, 当所述处理器执行所述计算机程序时, 实现如权利要 求1至7任一项所述的视频描述方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在权 利 要 求 书 2/3 页 3 CN 114386259 A 3

.PDF文档 专利 一种视频描述方法、装置以及存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频描述方法、装置以及存储介质 第 1 页 专利 一种视频描述方法、装置以及存储介质 第 2 页 专利 一种视频描述方法、装置以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:42:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。