说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210557333.9 (22)申请日 2022.05.20 (71)申请人 国家计算机网络与信息安全管理中 心 地址 100029 北京市朝阳区裕民路甲3号 申请人 中国科学院自动化研究所 (72)发明人 李扬曦 彭成维 刘科栋 缪亚男  王佩 胡卫明 李兵 刘雨帆  王坚 罗文阳  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 董娜 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/77(2022.01) (54)发明名称 小样本视频分类和分类模型训练方法及其 装置 (57)摘要 本发明提供一种小样本视频分类和分类模 型训练方法及其装置, 涉及计算机视觉技术领 域, 所述分类方法包括: 将小样本分类任务输入 预先构建的收敛的压缩域长短时Cross ‑ Transformer模型, 获取压缩 域信息; 基于压缩 域 信息, 获取短时融合的帧特征; 基于短时融合的 帧特征, 获取查询特征, 并输出基于查询特征获 取的小样本分类任务中查询视频对各个查询类 别原型所属支撑类别的分类分数, 其中, 分类分 数最大的支撑类别用于表示查询视频的分类结 果。 本发明可实现少量示例视频下的快速、 高精 度、 高效率的小样本 视频分类 。 权利要求书2页 说明书14页 附图4页 CN 115019087 A 2022.09.06 CN 115019087 A 1.一种小样本 视频分类方法, 其特 征在于, 包括: 将小样本分类任务输入预先构建的收敛的压缩域长短时Cross ‑Transformer模型, 获 取压缩域信息; 基于所述压缩域信息, 获取短时融合的帧特 征; 基于所述短时融合的帧特征, 获取查询特征, 并输出基于所述查询特征获取的小样本 分类任务中查询 视频对各个查询类别原型所属支撑类别的分类分数, 其中, 所述分类分数 最大的支撑类别用于表示 查询视频的分类结果。 2.根据权利要求1所述的小样本视频分类方法, 其特征在于, 所述将小样本分类任务输 入预先构建的收敛的压缩域长短时Cros s‑Transformer模型, 获取压缩域信息, 包括: 基于小样本分类任务, 获取 预测帧重要性 值和图像 群组重要性 值; 基于所述图像群组重要性值获取信息帧的RGB图像, 且基于所述预测帧重要性值获取 预测帧的运动向量; 基于预处 理的所述信息帧的RGB图像和所述预测帧的运动向量, 获取压缩域信息 。 3.根据权利要求2所述的小样本视频分类方法, 其特征在于, 所述基于所述图像群组重 要性值获取信息帧的RGB图像, 且基于所述预测帧重要性 值获取预测帧的运动向量, 包括: 基于图像群组重要性值, 获取阶段图像群组, 其中, 所述阶段图像群组包括训练图像群 组和测试图像群组, 所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组 的概率分布随机确定, 所述测试图像 群组是基于图像 群组重要性 值最高值确定; 解码所述阶段图像 群组的信息帧的RGB图像; 基于所述阶段图像群组, 获取阶段预测帧, 其中, 所述阶段预测帧包括训练预测帧和测 试预测帧, 训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确 定, 所述测试 预测帧是基于预测帧重要性 值最高值确定; 解码所述阶段预测帧的预测帧的运动向量, 基于预处理的信息帧的RGB图像和预测帧 的运动向量的获取, 确定 压缩域信息 。 4.根据权利要求1所述的小样本视频分类方法, 其特征在于, 所述基于所述压缩域信 息, 获取短时融合的帧特征, 包括: 基于所述压缩域信息, 分别构建I分支和 MV分支, 且基于 侧向连接的I分支和MV分支的短时交互, 每个分支均输出短时融合的帧特征, 其中, 所述基 于侧向连接的I分支和MV分支的短时交 互发生于同一图像 群组内。 5.根据权利要求1 ‑4中任一项所述的小样本视频分类方法, 其特征在于, 所述基于所述 短时融合的帧特征, 获取查询特征, 并输出基于所述查询特征获取 的小样本分类任务中查 询视频对各个查询类别原型所属支撑类别的分类分数, 其中, 所述分类分数最大 的支撑类 别用于表示 查询视频的分类结果, 包括: 基于自注意力层对短时融合的帧特 征的处理, 获取长短时帧特 征; 在长短时帧特 征投影于查询类别原型 所在特征空间的情况 下, 获取查询特 征; 输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分 数, 其中, 所述查询类别原型是基于互注意力层为查询 视频和支撑类别分别构造的元组表 示获得。 6.根据权利要求5所述的小样本视频分类方法, 其特征在于, 所述查询类别原型是基于 互注意力层为 查询视频和支撑类别分别构造的元组表示获得, 包括:权 利 要 求 书 1/2 页 2 CN 115019087 A 2基于多个所述长短时帧特征首尾拼接获取的向量, 获取视频的n元组, 其中, n表示超参 数, 且n为正整数; 基于查询视频的n元组集 合, 获取查询视频的n元组表示; 基于支撑类别下 所有支撑 视频的n元组集 合, 获取支撑类别的n元组表示。 7.一种小样本 视频分类模型训练方法, 其特 征在于, 包括: 构建压缩域长短时Cros s‑Transformer模型; 基于预先构建的小样本视频分类训练数据集, 对所述压缩域长短时Cross ‑ Transformer模型进行情节训练, 获取收敛的压缩域长短时Cro ss‑Transformer模型, 其中, 所述收敛的压缩域长短时Cross ‑Transformer模型执行如权利要求1 ‑6中任一项所述的小 样本视频分类方法。 8.根据权利要求7所述的小样本视频分类模型训练方法, 其特征在于, 所述基于预先构 建的小样本视频分类训练数据集, 对所述压缩域长短时Cross ‑Transformer模型进行情节 训练, 获取收敛的压缩域长短时Cros s‑Transformer模型, 包括: 基于所述压缩域长短时Cross ‑Transformer模型输出的查询视频的分类分数和查询样 本标签, 确定目标函数值, 并基于目标函数值, 利用梯度下降优化法优化所述压缩域长 短时 Cross‑Transformer模型的参数, 获取收敛的压缩域长短时Cros s‑Transformer模型。 9.一种小样本 视频分类装置, 其特 征在于, 包括: 压缩域获取模块, 用于将小样本分类任务输入预先构 建的收敛的压缩域长短时Cross ‑ Transformer模型, 获取压缩域信息; 特征提取模块, 用于基于所述压缩域信息, 获取短时融合的帧特 征; 输出模块, 用于基于所述短时融合的帧特征, 获取查询特征, 并输出基于所述查询特征 获取的小样本分类任务中查询 视频对各个查询 类别原型所属支撑类别的分类分数, 其中, 所述分类分数最大的支撑类别用于表示 查询视频的分类结果。 10.一种小样本 视频分类模型训练装置, 其特 征在于, 包括: 构建模块, 用于构建压缩域长短时Cros s‑Transformer模型; 训练模块, 用于基于预先构建的小样本视频分类训练数据集, 对所述压缩域长短时 Cross‑Transformer模型进行情节训练, 获取收敛的压缩域长短时Cross ‑Transformer模 型, 其中, 所述收敛的压缩域长短时Cross ‑Transformer模型执行如权利要求1 ‑6中任一项 所述的小样本 视频分类方法。 11.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至6中任一项 所述小样本视频分类方法和如权利要求7至8 中任一项所述的小样本视频分类模型训练方 法。 12.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利 要求7至8中任一项所述的小样本 视频分类模型训练方法。 13.一种计算机程序产品, 包括计算机程序, 其特征在于, 所述计算机程序被处理器执 行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项 所述的小样本 视频分类模型训练方法。权 利 要 求 书 2/2 页 3 CN 115019087 A 3

.PDF文档 专利 小样本视频分类和分类模型训练方法及其装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 小样本视频分类和分类模型训练方法及其装置 第 1 页 专利 小样本视频分类和分类模型训练方法及其装置 第 2 页 专利 小样本视频分类和分类模型训练方法及其装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。