说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210401553.2 (22)申请日 2022.04.18 (71)申请人 安庆师范大学 地址 246000 安徽省安庆市菱湖南路128号 (72)发明人 刘娟 黄忠 陶孟元 王颖  张丹妮  (74)专利代理 机构 安徽中辰臻远专利代理事务 所(普通合伙) 34175 专利代理师 刘朝琴 (51)Int.Cl. G06V 40/20(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于残差收缩结构和非局部注意力的行为 检测方法 (57)摘要 本发明涉及行为检测技术领域, 具体涉及基 于残差收缩结构和非局部注意力的行为检测方 法(CN‑R‑DRSN), 将残差收缩结构融入到3D ‑ ResNet卷积网络的残差模块中, 设计一种3D ‑ DRSN特征提取网络以自适应消除行为视频存在 的噪声、 背景等冗余的行为特征信息, 在时序候 选子网中嵌入 逐层空间卷积, 以在时序特征图下 采样及时序边界片段分割中保留更为丰富的层 次化空间信息, 在行为 分类子网利用Soft ‑NMS抑 制策略筛选时序候选段并引入非局部注意力机 制获取优质时序片段间上下文时空运动信息, 本 发明所提供的行为检测方法, 能够有效提高行为 动作边界检测精度以及行为 分类的准确度, 与R ‑ C3D相比, 本发明提出的CN ‑R‑DRSN方法[email protected] 值提高到32.7%。 权利要求书4页 说明书14页 附图3页 CN 114842553 A 2022.08.02 CN 114842553 A 1.基于残差收缩结构和非局部注意力的行为检测方法, 其特 征在于, 包括以下步骤: (1)基于残差收缩结构的特 征提取子网, 具体过程如下: (11)将输入特征X通过两次批标准化、 ReLU激活函数及卷积得到的特征x作 为残差收缩 模块输入向量,并经 过绝对值和全局均值池化操作将其简化 为一维向量 Xh,w,l,c:xh,w,l,c=GAP(|ReLU(BN(Conv(X)))|), 式中, ReLU()表示ReLU激活函数, BN() 表示批标准化, GAP()表示全局均值池化, h, w, l, c分别代表特征图的长、 宽、 帧长度和通道 数; (12)将简化后的向量特征Xh,w,l,c分别送入阈值收缩系数计算 分支和通道均值特征计算 支路, 在阈值收缩系数计算分支中, 利用两层全连接层计算Xh,w,l,c的各通道的阈值收缩系 数: αc=δ(FC(FC(xh,w,l,c))), 式中, FC()为全连接层, δ()为Sigmoid激活函数, 其中αc∈ (0,1); 在通道均值特征计算支路中, 分别计算各通道特征的平均值:βc=average(|xh,w,l,c|), 式中, average()表示求平均值; 获取阈值收缩系数以及 特征均值后, 各通道特征的收缩阈 值τc=αcβc(c∈[1,3]); 通过对每个通道计算收缩阈值, 可以获得输入向量x的收缩 阈值向 量 τ =( τ1, τ2, τ3); (13)将计算的收缩阈值向量τ对输入向量x进行软阈值化: xs=soft(x, τ )=sign(x)max {|x|‑τ,0}, 式中, xs表示软阈值化后所得特征, |x|<τ时, xs置为零, |x|>τ, xs朝着零的方 向进行收缩; 软阈值 化获取特征xs后, 与输入特 征X做残差连接: X ′=X+xs; 将n个残差收缩模块进行级联并构建3D ‑DRSN网络, 通过3D ‑DRSN网络抑制处理后的时 空特征图可表示为: E=DRSNn(X), 式中, DRSNn()表示n个残 差收缩模 块构 成的特征提取子网; (2)基于逐层空间卷积的时序候选 子网, 具体过程如下: (21)利用三个卷积层和一个1 ×2×2最大池化层将残差收缩网路获取的时空特征图转 化为仅含时序信息的特 征图E′: E′=Maxpooling(Conv3(Conv2(Conv1(E)))), 式中, conv1(·)、 conv2(·)、 conv3(·)分别代表三个卷积层; (22)通过逐层空间卷积, 获取 到长度的视频时序特征图E', 然后, 在 长度的视频 时 序特征图E′上提取时序候选片段: proposal=Conv1×1×1(E′), 式中, Conv1×1×1()表示1 ×1×1的卷积层, proposal为提取 到的时序候选片段; (3)基于非局部注意力机制的行为分类子网, 具体过程如下: (31)使用Soft ‑NMS抑制策略替代非极大值抑制: 式中, N表示时序候选子网提 取到的时序候选片段个数, M表示当前最高得分的时序边界框, bi为待处理的第i个时序边权 利 要 求 书 1/4 页 2 CN 114842553 A 2界框, si为bi的时序边界框置信度得分, γ为边界框抑制阈值, iou(M,bi)表示时序边界框M 与bi之间交并比: , 式中, Mstart、 Mend分别表示最高得分时序边界框M的开始时间和结束时间, bistart、 biend分别表示待 处理时序边界框bi的开始时间和结束时间, LM、 分别表示 时序边界框M和时序边界框bi的 时间长度; (32)将调整后的时序候选片段按照置信度得分进行排序, 并选择得分较高K(K≤N)个 时序候选片段作为优质的时序候选片段; (33)通过Soft ‑NMS策略获取K个优质时序候选段后, 采用3D  ROI pooling将不等长的 时序候选段映射到特 征图E的对应位置上: Pk=ROIPooling(softnm s(prposal,k),E), 式 中, Pk∈R512×1×4×4(k∈[1,K])为 筛选后的时序候选片段 特征图; (34)获取优质的时序候选片段特征图 后, 首先将 不同位置的特征作配对 计算: 式中, Wθ、 Wφ为权重矩阵; Pik(k∈[1,K])表示特征图Pk第i(i ∈[1,16])个位置特征; 表示特征图Pl第j(j∈[1,16])个位置特征; 表示特征图Pk的第i个位置特征和特征图Pl的第j个位置的特征的相似度。 同时, 将特征图Pk∈512×1×4×4(k∈[1,K])中16个位置的通道特征(512维)进行加权映射形成 位置向量: 式中Wg为权重矩阵; (35)通过特征图Pk与特征图Pl相似度 以及 计算第k个特征图第i个 位置的融合向量Fik: 式中, M表示特 征图Pk的像素总数; (36)将特征图Pk第i个位置的融合特 征Fik以及原始特征Pik作残差连接: 式中Wz∈R为权重矩阵。 将K个特征所有位置的残差连接 进行级联 并输入至全连接层得到所有片段的 时间边界位置和行为分类:权 利 要 求 书 2/4 页 3 CN 114842553 A 3

.PDF文档 专利 基于残差收缩结构和非局部注意力的行为检测方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于残差收缩结构和非局部注意力的行为检测方法 第 1 页 专利 基于残差收缩结构和非局部注意力的行为检测方法 第 2 页 专利 基于残差收缩结构和非局部注意力的行为检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。