专利一种基于改进MobileNet的视频行为识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210435541.1 (22)申请日 2022.04.24 (71)申请人中国计量大学地址 310018 浙江省杭州市下沙高教园区学源街258号 (72)发明人王修晖　刘琳琦　王亚茹　李学盛　贾波　包其富　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师贾玉霞 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于改进MobileNet的视频行为识别方法 (57)摘要本发明提供一种基于改进MobileNet的视频行为识别方法，其包括如下步骤：首先，将待识别行为视频中的多个连续行为帧输入到所提出的识别网络中，来挖掘行为视频中前后帧之间的运动趋势特征。然后，在加权逐点卷积过程中，在时间轴上添加了一个随机淡入因子，为每个相关帧提供不同的权重来更有效地利用不同时刻的行为帧之间的运动趋势关系。本发明提供的行为识别方法采用了基于多帧MobileNet的轻量级网络架构，通过引入多个连续的行为帧来描述相似行为的内部差异，实现了细粒度的行为识别、检测和评估，提高基于视频的行为识别正确率。权利要求书2页说明书4页附图2页 CN 114724252 A 2022.07.08 CN 114724252 A 1.一种基于改进MobileNet的视频行为识别方法，其特征在于，所述改进MobileNet包括类3D卷积层、加权逐点卷积层、两步卷积模块、最大池化层、全连接层和SoftMax层；所述方法具体包括如下步骤：步骤一：使用所述类3D卷积层对输入的视频中的多帧连续图像进行3D卷积操作，生成对应每帧图像的特征图；步骤二：对步骤一输出的特征图沿着时间轴进行加权逐点卷积，生成能量趋势图；步骤三：将步骤二输出的能量趋势图中的所有特征图依次进行N个串联的两步卷积操作进行特征提取，得到待识别行为的特征向量；所述两步卷积用于首先增加特征图的层数，再降低每一层特征图的维度；步骤四：基于步骤三所得特征向量，使用最大池化层和全连接层进行信息综合，并使用 SoftMax层进行分类，得到行为识别结果。 2.根据权利要求1所述的基于改进MobileNet的视频行为识别方法，其特征在于，步骤一通过如下的子步骤来实现：步骤1.1：对输入的视频进行解码，得到一系列有序彩色图像；步骤1.2：取步骤1.1解码后的连续M帧彩色图像作为类3D卷积层的输入，每帧图像尺寸为[W,H,3]；步骤1.3：使用大小为3x3x3的卷积核对输入的M帧图像进行3D卷积操作，输出尺寸为 [W,H,M]的特征图；步骤1.4：重复步骤1.2和步骤1.3，直到处理完步骤1.1得到的所有图像，得到一组尺寸为[W,H,M]的特征图。 3.根据权利要求1所述的基于改进MobileNet的视频行为识别方法，其特征在于，步骤二通过如下的子步骤来实现：步骤2.1：针对步骤一输出的每一个特征图，构造32个具有相同尺寸的淡入因子随机向量，其最小值为0.0，最大值为1.0，向量维度为M；步骤2.2：基于步骤2.1所得的32个随机向量生成32个尺寸为[1x1xM]的卷积核；步骤2.3：基于步骤2.2所得的卷积核对当前特征图进行逐点卷积，输出尺寸为[W,H, 32]的特征图；步骤2.4：重复步骤2.1至步骤2.3，直到处理完步骤一输出的所有特征图，得到一组尺寸为[W,H,32]的特征图，组成能量趋势图。 4.根据权利要求1所述的基于改进MobileNet的视频行为识别方法，其特征在于，所述步骤三中的两步卷积操作中的第一步用于得到具有更多层数的特征图，第二步用于降低输入特征图的维度；所述两步卷积操作中的第一步具体包括： (1)使用步长为1的深度卷积对每个输入特征图进行处理，该步骤不改变输入特征图的尺寸； (2)使用比步骤(1)处理后的特征图具有更高维度的卷积核对步骤(1)处理后的特征图进行逐点卷积；所述两步卷积操作中的第二步具体包括： (3)使用步长大于1的深度卷积对步骤(2)的输出结果进行处理，降低输入特征图的宽权　利　要　求　书 1/2 页 2 CN 114724252 A 2度和高度； (4)使用与步骤(3)处理后的特征图具有相同深度的卷积核对步骤(3)处理后的特征图进行处理。权　利　要　求　书 2/2 页 3 CN 114724252 A 3

专利 一种基于改进MobileNet的视频行为识别方法

专利一种基于改进MobileNet的视频行为识别方法