说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211123261.3 (22)申请日 2022.09.15 (71)申请人 浙江大学 地址 310000 浙江省杭州市西湖区余杭塘 路866号 (72)发明人 刘勇 幸家正 王蒙蒙  (74)专利代理 机构 杭州泓呈祥专利代理事务所 (普通合伙) 33350 专利代理师 张婵婵 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于空间和长短期时序特征建模的小样本 动作识别方法 (57)摘要 本发明涉及计算机视觉领域, 公开了基于空 间和长短期时序特征建模的小样本动作识别方 法, 构建了一种空间特征融合架构搜索单元, 以 自动搜索浅层和深层空间特征的最佳融合方式, 来改善和增强空间表征; 构建了一种长短期时序 特征建模单元, 以编码互补的全局和局部时序表 征, 来增强时序特征的表达能力。 本发明利用交 叉注意力机制完成类原型建立及匹配, 将整合后 的丰富的时空增强特征输入进帧级的类原型建 立及匹配单元中, 使系统能够在少量标记样本任 务中准确、 快速地识别目标动作。 权利要求书3页 说明书9页 附图3页 CN 115512437 A 2022.12.23 CN 115512437 A 1.基于空间和长短期时序特 征建模的小样本动作识别方法, 其特 征在于, 包括以下步骤: S1、 构建空间特 征融合架构搜索单 元; S2、 构建长短期时序特 征增强单 元; S3、 利用交叉注意力机制构建类原型建立及匹配单 元; S4、 对网络模型进行训练, 通过降低网络损失函数优化网络参数, 直至网络收敛, 获得 基于空间和长短期时序特 征建模的小样本动作识别方法; S5、 利用所述基于空间和长短期时序 特征建模的小样本动作识别方法在新的小样本任 务中识别目标动作。 2.根据权利要求1所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其 特征在于, 所述 步骤S1具体包括以下步骤: S11、 将特征提取器中输出的L层的特征 进行空间 对齐并存入特征库中, 其中N,T,C,H,W分别为批次大小、 时间、 空间、 高度和宽度; 将每个层 的特征的空间和通道 尺寸与最后一个层的特 征对齐, 具体为: Fi=Modulealign(Fi) 其中Modulealign是一个3×3卷积层; S12、 将特 征提取器输出的不同层的特 征与自动搜索融合模块进行融合, 具体为: 其中 是通过所有可选的融合操作后, 层i和j的特征的加权求和结果; 设置融 合方案的集合表示为 提供了三种无参数融合方案Su m、 GPlow和GPhigh; 为每个操作分配一 个权重α 并进行softmax操作,使搜索空间连续; 将搜索任务简化为学习 权重α, 而 可以计算 为: S13、 将空间特征融合架构搜索单元中更新的最后一层特征取出为 对 融合的特征FSP和特征提取器输出的最终特征FL进行加权求和, 可学习参数为γ∈[0,1], 具 体为: FSP=(1‑γ)FSP+γFL。 3.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其 特征在于, 所述 步骤S12中的所述 三种无参数融合方案Sum、 GPlow和GPhigh具体为: Sum(Fi,Fj)=Fi+Fj GPlow(Fi,Fj)=Max_po ol(Fi)+Sigmoid(Max_po ol(Fi))×Fj GPhigh(Fi,Fj)=Max_po ol(Fj)+Sigmoid(Max_po ol(Fj))×Fi 其中Fi,Fj为特征库中第i层和第j层特征, 且i<j≤L, Max_pool为Max_Pooling最大池 化操作, Sigmo id为sigmo id函数。权 利 要 求 书 1/3 页 2 CN 115512437 A 24.根据权利要求2所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其 特征在于, 所述 步骤S2具体包括以下步骤: S21、 构建长期时序建模模块; 根据提取的空间外观特征对全局时间关系进行建模; 将 空间增强后的视频特征图表示为 将 重塑为一个序列 将Fsq在时间维度上做自注意力相关, 具体为: Fsq=Fsq+Moduleatt(Fsq) 其中Moduleatt表示为L层的多头注意力机制; 然后通过一个残差前馈网络对获得的特 征进行指向性细化, 以获得长期的时序特 征 具体为: 其中LN表示层级归一化, 表示多层感知机; 将FLT被重塑为原始输入形状(即[N,T,C,H, W]); S22、 构建短期时序建模模块; 在特征层面上对相邻帧之间的运动信息进行编码; 给定 一个空间增强后的视频特征图 使用可学习的权重W1,W2, 获得 query‑key‑value三要素 具体为: Fq=FSPW1,Fk=FSPW2,Fv=FSPW3 重塑Fq, 将通道减少了r倍, 并利用两个3 ×3的通道卷积Kq和Kk作用在 Fq,Fk上, 具体为: 其中c,h,w代表通道和特征图的两个空间维度; 和 表示cth滤波器, 下标i,j∈ {‑1,0,1}表示内核的空 间系数; 在Fq和Fk之间的时间维度上做交错减法, 以获得特征层面的 运动信息, 也 就是 和 之间, 具体为: 其中对于L帧视频(1≤t≤L ‑1); 运动表征M的时间维度是T ‑1, 用0来表示最后一个时间 步骤的运动信息以帮助M 保持与输入特征图兼容的时间大小; 将M重塑为原始输入特征的形 状 以恢复通道的数量为C; 将一个前馈网络(FFN)应用于运动注意力M, 得到 最终输出, 计算 为: FST=Sigmoid(MLP(GELU(MLP(M) )))Fv; S23、 做短期时序特征FST和长期时序特征FLT的加权求和, 得到强化时序特征Fout, 可学习 参数为 λ∈[0,1], 具体为: Fout=(1‑λ )FST+λFLT。 5.根据权利要求4所述的基于空间和长短期时序特征建模的小样本动作识别方法, 其 特征在于, 所述 步骤S3具体包括以下步骤: S31、 构建一个视频的帧级的特征表示, 代表ith帧特征表达, 第i帧和第j帧的序 列(ω=2)表示为 其中1≤i≤j≤l, 以此类推; 对 于任一元组t∈Πω(ω∈Ω),权 利 要 求 书 2/3 页 3 CN 115512437 A 3

.PDF文档 专利 基于空间和长短期时序特征建模的小样本动作识别方法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于空间和长短期时序特征建模的小样本动作识别方法 第 1 页 专利 基于空间和长短期时序特征建模的小样本动作识别方法 第 2 页 专利 基于空间和长短期时序特征建模的小样本动作识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:57:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。