(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210401553.2
(22)申请日 2022.04.18
(71)申请人 安庆师范大学
地址 246000 安徽省安庆市菱湖南路128号
(72)发明人 刘娟 黄忠 陶孟元 王颖
张丹妮
(74)专利代理 机构 安徽中辰臻远专利代理事务
所(普通合伙) 34175
专利代理师 刘朝琴
(51)Int.Cl.
G06V 40/20(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/764(2022.01)G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于残差收缩结构和非局部注意力的行为
检测方法
(57)摘要
本发明涉及行为检测技术领域, 具体涉及基
于残差收缩结构和非局部注意力的行为检测方
法(CN‑R‑DRSN), 将残差收缩结构融入到3D ‑
ResNet卷积网络的残差模块中, 设计一种3D ‑
DRSN特征提取网络以自适应消除行为视频存在
的噪声、 背景等冗余的行为特征信息, 在时序候
选子网中嵌入 逐层空间卷积, 以在时序特征图下
采样及时序边界片段分割中保留更为丰富的层
次化空间信息, 在行为 分类子网利用Soft ‑NMS抑
制策略筛选时序候选段并引入非局部注意力机
制获取优质时序片段间上下文时空运动信息, 本
发明所提供的行为检测方法, 能够有效提高行为
动作边界检测精度以及行为 分类的准确度, 与R ‑
C3D相比, 本发明提出的CN ‑R‑DRSN方法
[email protected]
值提高到32.7%。
权利要求书4页 说明书14页 附图3页
CN 114842553 A
2022.08.02
CN 114842553 A
1.基于残差收缩结构和非局部注意力的行为检测方法, 其特 征在于, 包括以下步骤:
(1)基于残差收缩结构的特 征提取子网, 具体过程如下:
(11)将输入特征X通过两次批标准化、 ReLU激活函数及卷积得到的特征x作 为残差收缩
模块输入向量,并经 过绝对值和全局均值池化操作将其简化 为一维向量
Xh,w,l,c:xh,w,l,c=GAP(|ReLU(BN(Conv(X)))|), 式中, ReLU()表示ReLU激活函数, BN()
表示批标准化, GAP()表示全局均值池化, h, w, l, c分别代表特征图的长、 宽、 帧长度和通道
数;
(12)将简化后的向量特征Xh,w,l,c分别送入阈值收缩系数计算 分支和通道均值特征计算
支路, 在阈值收缩系数计算分支中, 利用两层全连接层计算Xh,w,l,c的各通道的阈值收缩系
数:
αc=δ(FC(FC(xh,w,l,c))), 式中, FC()为全连接层, δ()为Sigmoid激活函数, 其中αc∈
(0,1);
在通道均值特征计算支路中, 分别计算各通道特征的平均值:βc=average(|xh,w,l,c|),
式中, average()表示求平均值; 获取阈值收缩系数以及 特征均值后, 各通道特征的收缩阈
值τc=αcβc(c∈[1,3]); 通过对每个通道计算收缩阈值, 可以获得输入向量x的收缩 阈值向
量 τ =( τ1, τ2, τ3);
(13)将计算的收缩阈值向量τ对输入向量x进行软阈值化: xs=soft(x, τ )=sign(x)max
{|x|‑τ,0}, 式中, xs表示软阈值化后所得特征, |x|<τ时, xs置为零, |x|>τ, xs朝着零的方
向进行收缩; 软阈值 化获取特征xs后, 与输入特 征X做残差连接: X ′=X+xs;
将n个残差收缩模块进行级联并构建3D ‑DRSN网络, 通过3D ‑DRSN网络抑制处理后的时
空特征图可表示为: E=DRSNn(X), 式中,
DRSNn()表示n个残 差收缩模 块构
成的特征提取子网;
(2)基于逐层空间卷积的时序候选 子网, 具体过程如下:
(21)利用三个卷积层和一个1 ×2×2最大池化层将残差收缩网路获取的时空特征图转
化为仅含时序信息的特 征图E′:
E′=Maxpooling(Conv3(Conv2(Conv1(E)))), 式中,
conv1(·)、
conv2(·)、 conv3(·)分别代表三个卷积层;
(22)通过逐层空间卷积, 获取
到长度的视频时序特征图E', 然后, 在
长度的视频 时
序特征图E′上提取时序候选片段:
proposal=Conv1×1×1(E′), 式中, Conv1×1×1()表示1 ×1×1的卷积层, proposal为提取
到的时序候选片段;
(3)基于非局部注意力机制的行为分类子网, 具体过程如下:
(31)使用Soft ‑NMS抑制策略替代非极大值抑制:
式中, N表示时序候选子网提
取到的时序候选片段个数, M表示当前最高得分的时序边界框, bi为待处理的第i个时序边权 利 要 求 书 1/4 页
2
CN 114842553 A
2界框, si为bi的时序边界框置信度得分, γ为边界框抑制阈值, iou(M,bi)表示时序边界框M
与bi之间交并比:
, 式中,
Mstart、 Mend分别表示最高得分时序边界框M的开始时间和结束时间, bistart、 biend分别表示待
处理时序边界框bi的开始时间和结束时间, LM、
分别表示 时序边界框M和时序边界框bi的
时间长度;
(32)将调整后的时序候选片段按照置信度得分进行排序, 并选择得分较高K(K≤N)个
时序候选片段作为优质的时序候选片段;
(33)通过Soft ‑NMS策略获取K个优质时序候选段后, 采用3D ROI pooling将不等长的
时序候选段映射到特 征图E的对应位置上:
Pk=ROIPooling(softnm s(prposal,k),E), 式 中, Pk∈R512×1×4×4(k∈[1,K])为
筛选后的时序候选片段 特征图;
(34)获取优质的时序候选片段特征图
后, 首先将
不同位置的特征作配对
计算:
式中, Wθ、 Wφ为权重矩阵; Pik(k∈[1,K])表示特征图Pk第i(i
∈[1,16])个位置特征;
表示特征图Pl第j(j∈[1,16])个位置特征;
表示特征图Pk的第i个位置特征和特征图Pl的第j个位置的特征的相似度。 同时,
将特征图Pk∈512×1×4×4(k∈[1,K])中16个位置的通道特征(512维)进行加权映射形成
位置向量:
式中Wg为权重矩阵;
(35)通过特征图Pk与特征图Pl相似度
以及
计算第k个特征图第i个
位置的融合向量Fik:
式中, M表示特 征图Pk的像素总数;
(36)将特征图Pk第i个位置的融合特 征Fik以及原始特征Pik作残差连接:
式中Wz∈R为权重矩阵。 将K个特征所有位置的残差连接
进行级联
并输入至全连接层得到所有片段的
时间边界位置和行为分类:权 利 要 求 书 2/4 页
3
CN 114842553 A
3