(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211123261.3
(22)申请日 2022.09.15
(71)申请人 浙江大学
地址 310000 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘勇 幸家正 王蒙蒙
(74)专利代理 机构 杭州泓呈祥专利代理事务所
(普通合伙) 33350
专利代理师 张婵婵
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于空间和长短期时序特征建模的小样本
动作识别方法
(57)摘要
本发明涉及计算机视觉领域, 公开了基于空
间和长短期时序特征建模的小样本动作识别方
法, 构建了一种空间特征融合架构搜索单元, 以
自动搜索浅层和深层空间特征的最佳融合方式,
来改善和增强空间表征; 构建了一种长短期时序
特征建模单元, 以编码互补的全局和局部时序表
征, 来增强时序特征的表达能力。 本发明利用交
叉注意力机制完成类原型建立及匹配, 将整合后
的丰富的时空增强特征输入进帧级的类原型建
立及匹配单元中, 使系统能够在少量标记样本任
务中准确、 快速地识别目标动作。
权利要求书3页 说明书9页 附图3页
CN 115512437 A
2022.12.23
CN 115512437 A
1.基于空间和长短期时序特 征建模的小样本动作识别方法, 其特 征在于,
包括以下步骤:
S1、 构建空间特 征融合架构搜索单 元;
S2、 构建长短期时序特 征增强单 元;
S3、 利用交叉注意力机制构建类原型建立及匹配单 元;
S4、 对网络模型进行训练, 通过降低网络损失函数优化网络参数, 直至网络收敛, 获得
基于空间和长短期时序特 征建模的小样本动作识别方法;
S5、 利用所述基于空间和长短期时序 特征建模的小样本动作识别方法在新的小样本任
务中识别目标动作。
2.根据权利要求1所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其
特征在于, 所述 步骤S1具体包括以下步骤:
S11、 将特征提取器中输出的L层的特征
进行空间
对齐并存入特征库中, 其中N,T,C,H,W分别为批次大小、 时间、 空间、 高度和宽度; 将每个层
的特征的空间和通道 尺寸与最后一个层的特 征对齐, 具体为:
Fi=Modulealign(Fi)
其中Modulealign是一个3×3卷积层;
S12、 将特 征提取器输出的不同层的特 征与自动搜索融合模块进行融合, 具体为:
其中
是通过所有可选的融合操作后, 层i和j的特征的加权求和结果; 设置融
合方案的集合表示为
提供了三种无参数融合方案Su m、 GPlow和GPhigh; 为每个操作分配一
个权重α 并进行softmax操作,使搜索空间连续; 将搜索任务简化为学习 权重α, 而
可以计算 为:
S13、 将空间特征融合架构搜索单元中更新的最后一层特征取出为
对
融合的特征FSP和特征提取器输出的最终特征FL进行加权求和, 可学习参数为γ∈[0,1], 具
体为:
FSP=(1‑γ)FSP+γFL。
3.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其
特征在于, 所述 步骤S12中的所述 三种无参数融合方案Sum、 GPlow和GPhigh具体为:
Sum(Fi,Fj)=Fi+Fj
GPlow(Fi,Fj)=Max_po ol(Fi)+Sigmoid(Max_po ol(Fi))×Fj
GPhigh(Fi,Fj)=Max_po ol(Fj)+Sigmoid(Max_po ol(Fj))×Fi
其中Fi,Fj为特征库中第i层和第j层特征, 且i<j≤L, Max_pool为Max_Pooling最大池
化操作, Sigmo id为sigmo id函数。权 利 要 求 书 1/3 页
2
CN 115512437 A
24.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其
特征在于, 所述 步骤S2具体包括以下步骤:
S21、 构建长期时序建模模块; 根据提取的空间外观特征对全局时间关系进行建模; 将
空间增强后的视频特征图表示为
将
重塑为一个序列
将Fsq在时间维度上做自注意力相关, 具体为:
Fsq=Fsq+Moduleatt(Fsq)
其中Moduleatt表示为L层的多头注意力机制; 然后通过一个残差前馈网络对获得的特
征进行指向性细化, 以获得长期的时序特 征
具体为:
其中LN表示层级归一化, 表示多层感知机; 将FLT被重塑为原始输入形状(即[N,T,C,H,
W]);
S22、 构建短期时序建模模块; 在特征层面上对相邻帧之间的运动信息进行编码; 给定
一个空间增强后的视频特征图
使用可学习的权重W1,W2,
获得
query‑key‑value三要素 具体为:
Fq=FSPW1,Fk=FSPW2,Fv=FSPW3
重塑Fq,
将通道减少了r倍, 并利用两个3 ×3的通道卷积Kq和Kk作用在
Fq,Fk上, 具体为:
其中c,h,w代表通道和特征图的两个空间维度;
和
表示cth滤波器, 下标i,j∈
{‑1,0,1}表示内核的空 间系数; 在Fq和Fk之间的时间维度上做交错减法, 以获得特征层面的
运动信息, 也 就是
和
之间, 具体为:
其中对于L帧视频(1≤t≤L ‑1); 运动表征M的时间维度是T ‑1, 用0来表示最后一个时间
步骤的运动信息以帮助M 保持与输入特征图兼容的时间大小; 将M重塑为原始输入特征的形
状
以恢复通道的数量为C; 将一个前馈网络(FFN)应用于运动注意力M, 得到
最终输出, 计算 为:
FST=Sigmoid(MLP(GELU(MLP(M) )))Fv;
S23、 做短期时序特征FST和长期时序特征FLT的加权求和, 得到强化时序特征Fout, 可学习
参数为 λ∈[0,1], 具体为:
Fout=(1‑λ )FST+λFLT。
5.根据权利要求4所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其
特征在于, 所述 步骤S3具体包括以下步骤:
S31、 构建一个视频的帧级的特征表示,
代表ith帧特征表达, 第i帧和第j帧的序
列(ω=2)表示为
其中1≤i≤j≤l, 以此类推; 对 于任一元组t∈Πω(ω∈Ω),权 利 要 求 书 2/3 页
3
CN 115512437 A
3
专利 基于空间和长短期时序特征建模的小样本动作识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 16:57:57上传分享