专利小样本视频分类和分类模型训练方法及其装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210557333.9 (22)申请日 2022.05.20 (71)申请人国家计算机网络与信息安全管理中心地址 100029 北京市朝阳区裕民路甲3号申请人中国科学院自动化研究所 (72)发明人李扬曦　彭成维　刘科栋　缪亚男　王佩　胡卫明　李兵　刘雨帆　王坚　罗文阳　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师董娜 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) G06V 10/77(2022.01) (54)发明名称小样本视频分类和分类模型训练方法及其装置 (57)摘要本发明提供一种小样本视频分类和分类模型训练方法及其装置，涉及计算机视觉技术领域，所述分类方法包括：将小样本分类任务输入预先构建的收敛的压缩域长短时Cross ‑ Transformer模型，获取压缩域信息；基于压缩域信息，获取短时融合的帧特征；基于短时融合的帧特征，获取查询特征，并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，分类分数最大的支撑类别用于表示查询视频的分类结果。本发明可实现少量示例视频下的快速、高精度、高效率的小样本视频分类。权利要求书2页说明书14页附图4页 CN 115019087 A 2022.09.06 CN 115019087 A 1.一种小样本视频分类方法，其特征在于，包括：将小样本分类任务输入预先构建的收敛的压缩域长短时Cross ‑Transformer模型，获取压缩域信息；基于所述压缩域信息，获取短时融合的帧特征；基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果。 2.根据权利要求1所述的小样本视频分类方法，其特征在于，所述将小样本分类任务输入预先构建的收敛的压缩域长短时Cros s‑Transformer模型，获取压缩域信息，包括：基于小样本分类任务，获取预测帧重要性值和图像群组重要性值；基于所述图像群组重要性值获取信息帧的RGB图像，且基于所述预测帧重要性值获取预测帧的运动向量；基于预处理的所述信息帧的RGB图像和所述预测帧的运动向量，获取压缩域信息。 3.根据权利要求2所述的小样本视频分类方法，其特征在于，所述基于所述图像群组重要性值获取信息帧的RGB图像，且基于所述预测帧重要性值获取预测帧的运动向量，包括：基于图像群组重要性值，获取阶段图像群组，其中，所述阶段图像群组包括训练图像群组和测试图像群组，所述训练图像群组是基于归一化的图像群组重要性值获取的图像群组的概率分布随机确定，所述测试图像群组是基于图像群组重要性值最高值确定；解码所述阶段图像群组的信息帧的RGB图像；基于所述阶段图像群组，获取阶段预测帧，其中，所述阶段预测帧包括训练预测帧和测试预测帧，训练预测帧是基于归一化的预测帧重要性值获取的预测帧的概率分布随机确定，所述测试预测帧是基于预测帧重要性值最高值确定；解码所述阶段预测帧的预测帧的运动向量，基于预处理的信息帧的RGB图像和预测帧的运动向量的获取，确定压缩域信息。 4.根据权利要求1所述的小样本视频分类方法，其特征在于，所述基于所述压缩域信息，获取短时融合的帧特征，包括：基于所述压缩域信息，分别构建I分支和 MV分支，且基于侧向连接的I分支和MV分支的短时交互，每个分支均输出短时融合的帧特征，其中，所述基于侧向连接的I分支和MV分支的短时交互发生于同一图像群组内。 5.根据权利要求1 ‑4中任一项所述的小样本视频分类方法，其特征在于，所述基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果，包括：基于自注意力层对短时融合的帧特征的处理，获取长短时帧特征；在长短时帧特征投影于查询类别原型所在特征空间的情况下，获取查询特征；输出基于所述查询特征获取的查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得。 6.根据权利要求5所述的小样本视频分类方法，其特征在于，所述查询类别原型是基于互注意力层为查询视频和支撑类别分别构造的元组表示获得，包括：权　利　要　求　书 1/2 页 2 CN 115019087 A 2基于多个所述长短时帧特征首尾拼接获取的向量，获取视频的n元组，其中， n表示超参数，且n为正整数；基于查询视频的n元组集合，获取查询视频的n元组表示；基于支撑类别下所有支撑视频的n元组集合，获取支撑类别的n元组表示。 7.一种小样本视频分类模型训练方法，其特征在于，包括：构建压缩域长短时Cros s‑Transformer模型；基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时Cross ‑ Transformer模型进行情节训练，获取收敛的压缩域长短时Cro ss‑Transformer模型，其中，所述收敛的压缩域长短时Cross ‑Transformer模型执行如权利要求1 ‑6中任一项所述的小样本视频分类方法。 8.根据权利要求7所述的小样本视频分类模型训练方法，其特征在于，所述基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时Cross ‑Transformer模型进行情节训练，获取收敛的压缩域长短时Cros s‑Transformer模型，包括：基于所述压缩域长短时Cross ‑Transformer模型输出的查询视频的分类分数和查询样本标签，确定目标函数值，并基于目标函数值，利用梯度下降优化法优化所述压缩域长短时 Cross‑Transformer模型的参数，获取收敛的压缩域长短时Cros s‑Transformer模型。 9.一种小样本视频分类装置，其特征在于，包括：压缩域获取模块，用于将小样本分类任务输入预先构建的收敛的压缩域长短时Cross ‑ Transformer模型，获取压缩域信息；特征提取模块，用于基于所述压缩域信息，获取短时融合的帧特征；输出模块，用于基于所述短时融合的帧特征，获取查询特征，并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数，其中，所述分类分数最大的支撑类别用于表示查询视频的分类结果。 10.一种小样本视频分类模型训练装置，其特征在于，包括：构建模块，用于构建压缩域长短时Cros s‑Transformer模型；训练模块，用于基于预先构建的小样本视频分类训练数据集，对所述压缩域长短时 Cross‑Transformer模型进行情节训练，获取收敛的压缩域长短时Cross ‑Transformer模型，其中，所述收敛的压缩域长短时Cross ‑Transformer模型执行如权利要求1 ‑6中任一项所述的小样本视频分类方法。 11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8 中任一项所述的小样本视频分类模型训练方法。 12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项所述的小样本视频分类模型训练方法。 13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述小样本视频分类方法和如权利要求7至8中任一项所述的小样本视频分类模型训练方法。权　利　要　求　书 2/2 页 3 CN 115019087 A 3

专利 小样本视频分类和分类模型训练方法及其装置

专利小样本视频分类和分类模型训练方法及其装置