说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210300414.0 (22)申请日 2022.03.24 (71)申请人 武汉工程大 学 地址 430074 湖北省武汉市洪山区雄楚大 街693号 (72)发明人 鲁统伟 杨淇 张彦铎 卢涛  高芳裙  (74)专利代理 机构 湖北武汉 永嘉专利代理有限 公司 42102 专利代理师 黄帅 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于空间注意力和分组卷积的行为识别方 法及系统 (57)摘要 本发明公开了一种基于空间注意力和分组 卷积的行为识别方法及系统, 该方法包括: 稀疏 采样: 将输入的视频切帧后进行稀疏采样; 构建 网络结构, 网络结构包括时空激励模块和运动激 励模块两个分支: 对于时空激励模块来说, 首先 将基于时序上的分组卷积加入到模块中, 用于融 合时序上的信息并且降低网络参数量; 然后将空 间注意力加入到模块中, 使图像中较为重要的特 征得到更好的提取; 对于运动激励模块来说, 使 用多帧之间的差值来代替光流信息对运动特征 进行建模; 网络结构嵌入: 利用网络结构替换 resnet‑50中的残 差块, 得到行为识别模型; 最后 训练模型并利用模型进行行为识别。 本发明所提 出的行为识别方法优于其他的行为识别算法, 能 更有效地执 行行为识别任务。 权利要求书3页 说明书6页 附图3页 CN 114783053 A 2022.07.22 CN 114783053 A 1.一种基于空间注意力和分组卷积的行为识别方法, 其特征在于, 该方法包括以下步 骤: S1、 将视频切帧后进行稀疏采样, 得到 输入帧序列; S2、 构建行为识别网络结构, 包括并联的时空激励模块和运动激励模块; 在时空激励模块中, 首先将基于时序上的分组卷积加入到模块中, 用于融合时序上的 信息并且降低网络参数量; 在时间维度上使用一维卷积来融合时间信息, 表示 为: F′=Concate(F1, F2, ..., Fn) 式中, F1, F2, ..., Fn表示输入特征F被分成n组后分别通过卷积得到的特征, Concate表 示特征拼接, F‘表示分组卷积得到的结果; 然后将空间注意力加入到模块中, 使图像中较为重要的特征得到更好的提取: 使用两 种池化操作, 包括平均池化和最大池化, 来聚合一个特征图的信道信息; 对位置信息丰富的 空间信息路径上的每一层的特征图提取空间注意矩阵, 并将提取的空间注意矩阵应用于原 始特征图, 确定需要重点关注的位置, 然后通过标准卷积层连接和卷积, 生 成二维空间注 意 图; 空间注意力的计算方法如下: 式中, 表示每个 卷积得到的空间注意矩阵, A vgPool表示平均池 化, MaxPool 表示最大池化, Co nv表示卷积; 接着将每个卷积得到的空间注意矩阵 进行特征拼接: 最后将分组卷积部分和空间注意力部分串联 连接起来, 进行融合; 融合操作表示 为: G=F+F′ ×Ms(F*) 式中, G表示融合结果; 在运动激励模块中, 对后一帧的特征进行信道变换, 然后利用变换后的特征来进行 difference的操作, 表示 为: M(t)=Co nv3*X(t+1)‑X(t) 1<=t<=T ‑1 其中, M(t)是时间t的运动特征, 由此得到运动特征表示; X(t)和X(t+1)分别表示相邻 两帧的特 征; 在时序维度, difference操作产生T ‑1个运动特征表示, 然后沿着时序通道合并, 得到 需要的运动特 征; S3、 利用行为识别网络结构替换resnet ‑50模型中 的conv_2到conv_5, 得到行为识别模 型; S4、 将用于训练的视频 经过步骤S1处 理后输入至行为识别模型中进行训练; S5、 利用训练好的行为识别模型进行推理, 返回行为识别结果。 2.根据权利要求1所述的基于空间注意力和分组卷积的行为识别方法, 其特征在于, 将 视频切帧后进行稀疏采样, 得到输入帧序列包括: 将视频切割成帧并按照时间顺序进行均 匀分段, 从每一分段中随机采样一帧, 得到 输入帧序列。 3.根据权利要求1所述的基于空间注意力和分组卷积的行为识别方法, 其特征在于, 损 失函数L如下:权 利 要 求 书 1/3 页 2 CN 114783053 A 2其中, M为行为类别数量, N为样本数量, pic表示样本i属于c类的预测概率, yic是一个符 号函数, 定义 为: 4.一种基于空间注意力和分组卷积的行为识别系统, 其特 征在于, 该系统包括: 预处理模块, 用于将视频切帧后进行稀疏采样, 得到 输入帧序列; 模型构建模块, 用于构 建行为识别网络结构, 并利用行为识别网络结构替换resnet ‑50 模型中的conv_2到conv_5, 得到行为识别模型; 行为识别网络结构包括并联的时空激励模 块和运动激励模块; 在时空激励模块中, 首先将基于时序上的分组卷积加入到模块中, 用于融合时序上的 信息并且降低网络参数量; 在时间维度上使用一维卷积来融合时间信息, 表示 为: F′=Concate(F1, F2, ..., Fn) 式中, F1, F2, ..., Fn表示输入特征F被分成n组后分别通过卷积得到的特征, Concate表 示特征拼接, F‘表示分组卷积得到的结果; 然后将空间注意力加入到模块中, 使图像中较为重要的特征得到更好的提取: 使用两 种池化操作, 包括平均池化和最大池化, 来聚合一个特征图的信道信息; 对位置信息丰富的 空间信息路径上的每一层的特征图提取空间注意矩阵, 并将提取的空间注意矩阵应用于原 始特征图, 确定需要重点关注的位置, 然后通过标准卷积层连接和卷积, 生 成二维空间注 意 图; 空间注意力的计算方法如下: 式中, 表示每个 卷积得到的空间注意矩阵, A vgPool表示平均池 化, MaxPool 表示最大池化, Co nv表示卷积; 接着将每个卷积得到的空间注意矩阵 进行特征拼接: 最后将分组卷积部分和空间注意力部分串联 连接起来, 进行融合; 融合操作表示 为: G=F+F′ ×Ms(F*) 式中, G表示融合结果; 在运动激励模块中, 对后一帧的特征进行信道变换, 然后利用变换后的特征来进行 difference的操作, 表示 为: M(t)=Co nv3*X(t+1)‑X(t) 1<=t<=T ‑1 其中, M(t)是时间t的运动特征, 由此得到运动特征表示; X(t)和X(t+1)分别表示相邻 两帧的特 征; 在时序维度, difference操作产生T ‑1个运动特征表示, 然后沿着时序通道合并, 得到 需要的运动特 征; 还用于利用行为识别网络结构替换resnet ‑50模型中的conv_2到conv_5, 得到行为识 别模型;权 利 要 求 书 2/3 页 3 CN 114783053 A 3

.PDF文档 专利 基于空间注意力和分组卷积的行为识别方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于空间注意力和分组卷积的行为识别方法及系统 第 1 页 专利 基于空间注意力和分组卷积的行为识别方法及系统 第 2 页 专利 基于空间注意力和分组卷积的行为识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:38:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。