专利基于残差收缩结构和非局部注意力的行为检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210401553.2 (22)申请日 2022.04.18 (71)申请人安庆师范大学地址 246000 安徽省安庆市菱湖南路128号 (72)发明人刘娟　黄忠　陶孟元　王颖　张丹妮　 (74)专利代理机构安徽中辰臻远专利代理事务所(普通合伙) 34175 专利代理师刘朝琴 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于残差收缩结构和非局部注意力的行为检测方法 (57)摘要本发明涉及行为检测技术领域，具体涉及基于残差收缩结构和非局部注意力的行为检测方法(CN‑R‑DRSN)，将残差收缩结构融入到3D ‑ ResNet卷积网络的残差模块中，设计一种3D ‑ DRSN特征提取网络以自适应消除行为视频存在的噪声、背景等冗余的行为特征信息，在时序候选子网中嵌入逐层空间卷积，以在时序特征图下采样及时序边界片段分割中保留更为丰富的层次化空间信息，在行为分类子网利用Soft ‑NMS抑制策略筛选时序候选段并引入非局部注意力机制获取优质时序片段间上下文时空运动信息，本发明所提供的行为检测方法，能够有效提高行为动作边界检测精度以及行为分类的准确度，与R ‑ C3D相比，本发明提出的CN ‑R‑DRSN方法[email protected] 值提高到32.7％。权利要求书4页说明书14页附图3页 CN 114842553 A 2022.08.02 CN 114842553 A 1.基于残差收缩结构和非局部注意力的行为检测方法，其特征在于，包括以下步骤： (1)基于残差收缩结构的特征提取子网，具体过程如下： (11)将输入特征X通过两次批标准化、 ReLU激活函数及卷积得到的特征x作为残差收缩模块输入向量,并经过绝对值和全局均值池化操作将其简化为一维向量 Xh,w,l,c:xh,w,l,c＝GAP(|ReLU(BN(Conv(X)))|)，式中， ReLU()表示ReLU激活函数， BN() 表示批标准化， GAP()表示全局均值池化， h， w， l， c分别代表特征图的长、宽、帧长度和通道数； (12)将简化后的向量特征Xh,w,l,c分别送入阈值收缩系数计算分支和通道均值特征计算支路，在阈值收缩系数计算分支中，利用两层全连接层计算Xh,w,l,c的各通道的阈值收缩系数: αc＝δ(FC(FC(xh,w,l,c)))，式中， FC()为全连接层， δ()为Sigmoid激活函数，其中αc∈ (0,1)；在通道均值特征计算支路中，分别计算各通道特征的平均值:βc＝average(|xh,w,l,c|)，式中， average()表示求平均值；获取阈值收缩系数以及特征均值后，各通道特征的收缩阈值τc＝αcβc(c∈[1,3])；通过对每个通道计算收缩阈值，可以获得输入向量x的收缩阈值向量 τ ＝( τ1, τ2, τ3)； (13)将计算的收缩阈值向量τ对输入向量x进行软阈值化： xs＝soft(x, τ )＝sign(x)max {|x|‑τ,0}，式中， xs表示软阈值化后所得特征， |x|＜τ时， xs置为零， |x|＞τ， xs朝着零的方向进行收缩；软阈值化获取特征xs后，与输入特征X做残差连接： X ′＝X+xs；将n个残差收缩模块进行级联并构建3D ‑DRSN网络，通过3D ‑DRSN网络抑制处理后的时空特征图可表示为： E＝DRSNn(X)，式中， DRSNn()表示n个残差收缩模块构成的特征提取子网； (2)基于逐层空间卷积的时序候选子网，具体过程如下： (21)利用三个卷积层和一个1 ×2×2最大池化层将残差收缩网路获取的时空特征图转化为仅含时序信息的特征图E′： E′＝Maxpooling(Conv3(Conv2(Conv1(E))))，式中， conv1(·)、 conv2(·)、 conv3(·)分别代表三个卷积层； (22)通过逐层空间卷积，获取到长度的视频时序特征图E'，然后，在长度的视频时序特征图E′上提取时序候选片段： proposal＝Conv1×1×1(E′)，式中， Conv1×1×1()表示1 ×1×1的卷积层， proposal为提取到的时序候选片段； (3)基于非局部注意力机制的行为分类子网，具体过程如下： (31)使用Soft ‑NMS抑制策略替代非极大值抑制：式中， N表示时序候选子网提取到的时序候选片段个数， M表示当前最高得分的时序边界框， bi为待处理的第i个时序边权　利　要　求　书 1/4 页 2 CN 114842553 A 2界框， si为bi的时序边界框置信度得分， γ为边界框抑制阈值， iou(M,bi)表示时序边界框M 与bi之间交并比：，式中， Mstart、 Mend分别表示最高得分时序边界框M的开始时间和结束时间， bistart、 biend分别表示待处理时序边界框bi的开始时间和结束时间， LM、分别表示时序边界框M和时序边界框bi的时间长度； (32)将调整后的时序候选片段按照置信度得分进行排序，并选择得分较高K(K≤N)个时序候选片段作为优质的时序候选片段； (33)通过Soft ‑NMS策略获取K个优质时序候选段后，采用3D ROI pooling将不等长的时序候选段映射到特征图E的对应位置上： Pk＝ROIPooling(softnm s(prposal,k),E)，式中， Pk∈R512×1×4×4(k∈[1,K])为筛选后的时序候选片段特征图； (34)获取优质的时序候选片段特征图后，首先将不同位置的特征作配对计算：式中， Wθ、 Wφ为权重矩阵； Pik(k∈[1,K])表示特征图Pk第i(i ∈[1,16])个位置特征；表示特征图Pl第j(j∈[1,16])个位置特征；表示特征图Pk的第i个位置特征和特征图Pl的第j个位置的特征的相似度。同时，将特征图Pk∈512×1×4×4(k∈[1,K])中16个位置的通道特征(512维)进行加权映射形成位置向量：式中Wg为权重矩阵； (35)通过特征图Pk与特征图Pl相似度以及计算第k个特征图第i个位置的融合向量Fik：式中， M表示特征图Pk的像素总数； (36)将特征图Pk第i个位置的融合特征Fik以及原始特征Pik作残差连接：式中Wz∈R为权重矩阵。将K个特征所有位置的残差连接进行级联并输入至全连接层得到所有片段的时间边界位置和行为分类：权　利　要　求　书 2/4 页 3 CN 114842553 A 3

专利 基于残差收缩结构和非局部注意力的行为检测方法

专利基于残差收缩结构和非局部注意力的行为检测方法