专利基于通道注意力导向时间建模的视频行为识别方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110129406.X (22)申请日 2021.01.2 9 (65)同一申请的已公布的文献号申请公布号 CN 112818843 A (43)申请公布日 2021.05.18 (73)专利权人山东大学地址 250061 山东省济南市历下区经十路 17923号 (72)发明人马昕　武寒波　宋锐　荣学文　李贻斌　 (74)专利代理机构济南圣达知识产权代理有限公司 372 21 专利代理师董雪 (51)Int.Cl. G06V 20/40(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111325155 A,2020.0 6.23 CN 111709304 A,2020.09.25 CN 111627052 A,2020.09.04 审查员邵金 (54)发明名称基于通道注意力导向时间建模的视频行为识别方法及系统 (57)摘要本发明公开了一种基于通道注意力导向时间建模的视频行为识别方法及系统，基于输入视频卷积特征图，提出一种新的视频级通道注意力生成方法，以学习不同特征通道的差异性；在通道注意力的指导下，对生成的注意力得分进行重要性排序，计算强辨识度特征通道中相邻帧空间特征的残差来捕捉人体动作随时间变化的运动动态，通过建立相邻帧的时间关系模型来捕获视频时间依赖性，实现高效的视频时间结构建模，进而生成更具辨识力的视频特征表示；基于得到的特征表示进行视频行为识别。所提出的通道注意力导向残差时间建模模块可以被灵活地嵌入到许多现有的2D网络结构中，通过赋予2D网络高效的时间建模能力来提高视频行为识别的性能。权利要求书2页说明书14页附图2页 CN 112818843 B 2022.08.26 CN 112818843 B 1.一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，包括：获取输入行为视频的卷积特征图；生成通道注意力权值，并对输入视频卷积特征图进行调整；选择注意力权值高于设定值的特征通道进行残差时间建模，计算相邻帧在这些通道中空间特征的残差来建立它们之间的时间相关性模型，通过捕捉人体动作随时间变化的运动动态来学习视频的时间关系，进而得到更具辨识力的视频特征表示；基于得到的特征表示进行视频行为识别；生成通道注意力权值，并对输入视频卷积特征图进行调整，具体过程包括：给定输入视频的卷积特征图；对每个特征通道中T帧特征图的空间信息进行时间聚合；在时间聚合后的视频特征图上应用全局空间平均池化来压缩空间信息以获得通道描述子；基于所述通道描述子，进行通道注意力计算，得到视频级的通道注意力得分，作为不同特征通道的权重；基于所述权重对原始输入卷积特征图进行调整，得到通道注意力校准后的视频卷积特征图。 2.如权利要求1所述的一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，基于所述通道描述子，进行通道注意力计算，具体为： α ＝f(Wuδ(WdU)) 其中， U∈RC表示通道描述子，利用卷积核尺寸为1 ×1的两个2D卷积层来计算通道注意力， Wd是第一个卷积层的权值参数，通过对U应用第一个卷积层操作将通道维数C缩减r倍， Wu 是第二个卷积层的权值参数，通过对第一个卷积后的结果应用第二个卷积层操作将通道维数增加r倍，参数r被设置为16， δ( ·)表示ReLu激活函数， f( ·)表示sigmo id激活函数。 3.如权利要求1所述的一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，选择注意力权值高于设定值的特征通道进行残差时间建模，具体过程包括：将特征通道的注意力得分按照从高到低的顺序进行通道重要性排序；将校准后的视频卷积特征图沿着排序后的通道维度分成高注意力得分通道组和低注意力得分通道组；仅对高注意力得分通道组进行时间建模，以捕捉人体动作随时间变化的运动动态，生成更具辨识力的特征表示；对于低得分通道组不作处理以保留静态场景空间信息。 4.如权利要求3所述的一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，对于高注意力得分通道组，通过计算相邻帧空间特征图的差值来建立它们之间的时间关系模型。 5.如权利要求3所述的一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，对于高注意力得分通道组，同时使用前向和后向残差时间建模，以赋予当前帧更丰富的时空信息；将t时刻前向时间建模和后向时间建模分别获得的特征图沿通道维度进行级联操作，得到t时刻的运动特征；将所有帧的运动特征沿时间轴级联，构造高得分通道组双向时间建模的输出张量；所权　利　要　求　书 1/2 页 2 CN 112818843 B 2述输出张量与高得分通道组原始输入特征图进行残差连接，得到高注意力得分通道组应用双向残差时间建模后输出的卷积特征；所述卷积特征与低得分通道组的卷积特征沿通道维度进行组合，得到通道注意力导向残差时间建模调整后的视频特征表示。 6.如权利要求5所述的一种基于通道注意力导向时间建模的视频行为识别方法，其特征在于，为了保持时间尺度不变，对于前向时间建模，将最后时刻的特征设为零；对于后向时间建模，将初始时刻的特征设为零。 7.一种基于通道注意力导向时间建模的视频行为识别系统，其特征在于，包括：数据获取模块，用于获取输入行为视频的卷积特征图；通道注意力生成模块，用于获取通道权值，并对原始输入视频卷积特征图进行调整；残差时间建模模块，用于选择注意力权值高于设定值的特征通道进行残差时间建模，计算相邻帧在这些通道中空间特征的残差来建立它们之间的时间相关性模型，通过捕捉人体动作随时间变化的运动动态来学习视频的时间关系，进而得到更具辨识力的视频特征表示；视频行为识别模块，用于基于得到的特征表示进行视频行为识别；生成通道注意力权值，并对输入视频卷积特征图进行调整，具体过程包括：给定输入视频的卷积特征图；对每个特征通道中T帧特征图的空间信息进行时间聚合；在时间聚合后的视频特征图上应用全局空间平均池化来压缩空间信息以获得通道描述子；基于所述通道描述子，进行通道注意力计算，得到视频级的通道注意力得分，作为不同特征通道的权重；基于所述权重对原始输入卷积特征图进行调整，得到通道注意力校准后的视频卷积特征图。 8.如权利要求7所述的一种基于通道注意力导向时间建模的视频行为识别系统，其特征在于，所述通道注意力生成模块和残差时间建模模块共同构成通道注意力导向残差时间建模模块；将所述通道注意力导向残差时间建模模块嵌入到任一2D网络中构建通道注意力导向残差时间建模网络，使其具备时间建模的能力；基于所述通道注意力导向残差时间建模网络来进行视频行为识别。 9.一种终端设备，其包括处理器和存储器，处理器用于实现各指令；存储器用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求 1‑6任一项所述的基于通道注意力导向时间建模的视频行为识别方法。权　利　要　求　书 2/2 页 3 CN 112818843 B 3

专利 基于通道注意力导向时间建模的视频行为识别方法及系统

专利基于通道注意力导向时间建模的视频行为识别方法及系统