专利基于空间注意力和分组卷积的行为识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210300414.0 (22)申请日 2022.03.24 (71)申请人武汉工程大学地址 430074 湖北省武汉市洪山区雄楚大街693号 (72)发明人鲁统伟　杨淇　张彦铎　卢涛　高芳裙　 (74)专利代理机构湖北武汉永嘉专利代理有限公司 42102 专利代理师黄帅 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/62(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于空间注意力和分组卷积的行为识别方法及系统 (57)摘要本发明公开了一种基于空间注意力和分组卷积的行为识别方法及系统，该方法包括：稀疏采样：将输入的视频切帧后进行稀疏采样；构建网络结构，网络结构包括时空激励模块和运动激励模块两个分支：对于时空激励模块来说，首先将基于时序上的分组卷积加入到模块中，用于融合时序上的信息并且降低网络参数量；然后将空间注意力加入到模块中，使图像中较为重要的特征得到更好的提取；对于运动激励模块来说，使用多帧之间的差值来代替光流信息对运动特征进行建模；网络结构嵌入：利用网络结构替换 resnet‑50中的残差块，得到行为识别模型；最后训练模型并利用模型进行行为识别。本发明所提出的行为识别方法优于其他的行为识别算法，能更有效地执行行为识别任务。权利要求书3页说明书6页附图3页 CN 114783053 A 2022.07.22 CN 114783053 A 1.一种基于空间注意力和分组卷积的行为识别方法，其特征在于，该方法包括以下步骤： S1、将视频切帧后进行稀疏采样，得到输入帧序列； S2、构建行为识别网络结构，包括并联的时空激励模块和运动激励模块；在时空激励模块中，首先将基于时序上的分组卷积加入到模块中，用于融合时序上的信息并且降低网络参数量；在时间维度上使用一维卷积来融合时间信息，表示为： F′＝Concate(F1， F2， ...， Fn) 式中， F1， F2， ...， Fn表示输入特征F被分成n组后分别通过卷积得到的特征， Concate表示特征拼接， F‘表示分组卷积得到的结果；然后将空间注意力加入到模块中，使图像中较为重要的特征得到更好的提取：使用两种池化操作，包括平均池化和最大池化，来聚合一个特征图的信道信息；对位置信息丰富的空间信息路径上的每一层的特征图提取空间注意矩阵，并将提取的空间注意矩阵应用于原始特征图，确定需要重点关注的位置，然后通过标准卷积层连接和卷积，生成二维空间注意图；空间注意力的计算方法如下：式中，表示每个卷积得到的空间注意矩阵， A vgPool表示平均池化， MaxPool 表示最大池化， Co nv表示卷积；接着将每个卷积得到的空间注意矩阵进行特征拼接：最后将分组卷积部分和空间注意力部分串联连接起来，进行融合；融合操作表示为： G＝F+F′ ×Ms(F*) 式中， G表示融合结果；在运动激励模块中，对后一帧的特征进行信道变换，然后利用变换后的特征来进行 difference的操作，表示为： M(t)＝Co nv3*X(t+1)‑X(t) 1＜＝t＜＝T ‑1 其中， M(t)是时间t的运动特征，由此得到运动特征表示； X(t)和X(t+1)分别表示相邻两帧的特征；在时序维度， difference操作产生T ‑1个运动特征表示，然后沿着时序通道合并，得到需要的运动特征； S3、利用行为识别网络结构替换resnet ‑50模型中的conv_2到conv_5，得到行为识别模型； S4、将用于训练的视频经过步骤S1处理后输入至行为识别模型中进行训练； S5、利用训练好的行为识别模型进行推理，返回行为识别结果。 2.根据权利要求1所述的基于空间注意力和分组卷积的行为识别方法，其特征在于，将视频切帧后进行稀疏采样，得到输入帧序列包括：将视频切割成帧并按照时间顺序进行均匀分段，从每一分段中随机采样一帧，得到输入帧序列。 3.根据权利要求1所述的基于空间注意力和分组卷积的行为识别方法，其特征在于，损失函数L如下：权　利　要　求　书 1/3 页 2 CN 114783053 A 2其中， M为行为类别数量， N为样本数量， pic表示样本i属于c类的预测概率， yic是一个符号函数，定义为： 4.一种基于空间注意力和分组卷积的行为识别系统，其特征在于，该系统包括：预处理模块，用于将视频切帧后进行稀疏采样，得到输入帧序列；模型构建模块，用于构建行为识别网络结构，并利用行为识别网络结构替换resnet ‑50 模型中的conv_2到conv_5，得到行为识别模型；行为识别网络结构包括并联的时空激励模块和运动激励模块；在时空激励模块中，首先将基于时序上的分组卷积加入到模块中，用于融合时序上的信息并且降低网络参数量；在时间维度上使用一维卷积来融合时间信息，表示为： F′＝Concate(F1， F2， ...， Fn) 式中， F1， F2， ...， Fn表示输入特征F被分成n组后分别通过卷积得到的特征， Concate表示特征拼接， F‘表示分组卷积得到的结果；然后将空间注意力加入到模块中，使图像中较为重要的特征得到更好的提取：使用两种池化操作，包括平均池化和最大池化，来聚合一个特征图的信道信息；对位置信息丰富的空间信息路径上的每一层的特征图提取空间注意矩阵，并将提取的空间注意矩阵应用于原始特征图，确定需要重点关注的位置，然后通过标准卷积层连接和卷积，生成二维空间注意图；空间注意力的计算方法如下：式中，表示每个卷积得到的空间注意矩阵， A vgPool表示平均池化， MaxPool 表示最大池化， Co nv表示卷积；接着将每个卷积得到的空间注意矩阵进行特征拼接：最后将分组卷积部分和空间注意力部分串联连接起来，进行融合；融合操作表示为： G＝F+F′ ×Ms(F*) 式中， G表示融合结果；在运动激励模块中，对后一帧的特征进行信道变换，然后利用变换后的特征来进行 difference的操作，表示为： M(t)＝Co nv3*X(t+1)‑X(t) 1＜＝t＜＝T ‑1 其中， M(t)是时间t的运动特征，由此得到运动特征表示； X(t)和X(t+1)分别表示相邻两帧的特征；在时序维度， difference操作产生T ‑1个运动特征表示，然后沿着时序通道合并，得到需要的运动特征；还用于利用行为识别网络结构替换resnet ‑50模型中的conv_2到conv_5，得到行为识别模型；权　利　要　求　书 2/3 页 3 CN 114783053 A 3

专利 基于空间注意力和分组卷积的行为识别方法及系统

专利基于空间注意力和分组卷积的行为识别方法及系统