说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110129406.X (22)申请日 2021.01.2 9 (65)同一申请的已公布的文献号 申请公布号 CN 112818843 A (43)申请公布日 2021.05.18 (73)专利权人 山东大学 地址 250061 山东省济南市历下区经十路 17923号 (72)发明人 马昕 武寒波 宋锐 荣学文  李贻斌  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 董雪 (51)Int.Cl. G06V 20/40(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 111325155 A,2020.0 6.23 CN 111709304 A,2020.09.25 CN 111627052 A,2020.09.04 审查员 邵金 (54)发明名称 基于通道注意力导向时间建模的视频行为 识别方法及系统 (57)摘要 本发明公开了一种基于通道注意力导向时 间建模的视频行为识别方法及系统, 基于输入视 频卷积特征图, 提出一种新的视频级通道注意力 生成方法, 以学习不同特征通道的差异性; 在通 道注意力的指导下, 对生 成的注意力得分进行重 要性排序, 计算强辨识度特征通道中相邻帧空间 特征的残差来捕捉人体动作 随时间变化的运动 动态, 通过建立相邻帧的时间关系模 型来捕获视 频时间依赖性, 实现高效的视频时间结构建模, 进而生成更具辨识力的视频特征表 示; 基于得到 的特征表 示进行视频行为识别。 所提出的通道注 意力导向残差时间建模模块可以被灵活地嵌入 到许多现有的2D网络 结构中, 通过赋予2D网络高 效的时间建模能力来 提高视频行为识别的性能。 权利要求书2页 说明书14页 附图2页 CN 112818843 B 2022.08.26 CN 112818843 B 1.一种基于通道 注意力导向时间建模的视频 行为识别方法, 其特 征在于, 包括: 获取输入行为视频的卷积特 征图; 生成通道 注意力权值, 并对输入视频 卷积特征图进行调整; 选择注意力 权值高于设定值的特征通道进行残差时间建模, 计算相邻帧在这些通道中 空间特征的残差来建立它们之 间的时间相关性模型, 通过捕捉人体动作随时间变化的运动 动态来学习视频的时间关系, 进 而得到更 具辨识力的视频 特征表示; 基于得到的特 征表示进行视频 行为识别; 生成通道 注意力权值, 并对输入视频 卷积特征图进行调整, 具体过程包括: 给定输入视频的卷积特 征图; 对每个特征通道中T帧特 征图的空间信息进行时间聚合; 在时间聚合后的视频特征图上应用全局空间平均池化来压缩空间信息以获得通道描 述子; 基于所述通道描述子, 进行通道注意力计算, 得到视频级的通道注意力得分, 作为不同 特征通道的权 重; 基于所述权重对原始输入卷积特征图进行调整, 得到通道注意力校准后的视频卷积特 征图。 2.如权利要求1所述的一种基于通道注意力导向时间建模的视频行为识别方法, 其特 征在于, 基于所述 通道描述子, 进行通道 注意力计算, 具体为: α =f(Wuδ(WdU)) 其中, U∈RC表示通道描述子, 利用卷积核尺寸为1 ×1的两个2D卷积层来计算通道注意 力, Wd是第一个卷积层的权 值参数, 通过对U应用第一个卷积层 操作将通道维数C缩减r倍, Wu 是第二个卷积层的权值参数, 通过对第一个卷积后的结果应用第二个卷积层操作将通道维 数增加r倍, 参数r被设置为16, δ( ·)表示ReLu激活函数, f( ·)表示sigmo id激活函数。 3.如权利要求1所述的一种基于通道注意力导向时间建模的视频行为识别方法, 其特 征在于, 选择注意力权值高于设定值的特 征通道进行残差时间建模, 具体过程包括: 将特征通道的注意力得分按照从高到低的顺序进行通道重要性 排序; 将校准后的视频卷积特征图沿着排序后的通道维度分成高注意力得分通道组和低注 意力得分通道组; 仅对高注意力得分通道组进行时间建模, 以捕捉人体动作随时间变化的运动动态, 生 成更具辨识力的特 征表示; 对于低得分通道组不作处 理以保留静态场景空间信息 。 4.如权利要求3所述的一种基于通道注意力导向时间建模的视频行为识别方法, 其特 征在于, 对于高注意力得分通道组, 通过计算相邻帧空间特征图的差值来建立它们之间的 时间关系模型。 5.如权利要求3所述的一种基于通道注意力导向时间建模的视频行为识别方法, 其特 征在于, 对于高注 意力得分通道组, 同时使用前向和 后向残差时间建模, 以赋予当前帧更丰 富的时空信息; 将t时刻前向时间建模和后向时间建模分别获得的特征图沿通道维度进行级联操作, 得到t时刻的运动特 征; 将所有帧的运动特征沿时间轴级联, 构造高得分通道组双 向时间建模的输出张量; 所权 利 要 求 书 1/2 页 2 CN 112818843 B 2述输出张量与高得分通道组原始输入特征图进行残差连接, 得到高注意力得分通道组应用 双向残差时间建模后输出的卷积特 征; 所述卷积特征与低得分通道 组的卷积特征沿通道维度进行组合, 得到通道注意力导向 残差时间建模调整后的视频 特征表示。 6.如权利要求5所述的一种基于通道注意力导向时间建模的视频行为识别方法, 其特 征在于, 为了保持时间尺度不变, 对于前向时间建模, 将最后时刻的特征设为零; 对于后向 时间建模, 将初始时刻的特 征设为零。 7.一种基于通道 注意力导向时间建模的视频 行为识别系统, 其特 征在于, 包括: 数据获取模块, 用于获取输入行为视频的卷积特 征图; 通道注意力生成模块, 用于获取通道权值, 并对原 始输入视频 卷积特征图进行调整; 残差时间建模模块, 用于选择注意力权值高于设定值的特征通道进行残差时间建模, 计算相邻帧在这些通道中空间特征的残差来建立它们之 间的时间相关性模 型, 通过捕捉人 体动作随时间变化的运动动态来学习视频的时间关系, 进而得到更具辨识力的视频特征表 示; 视频行为识别模块, 用于基于得到的特 征表示进行视频 行为识别; 生成通道 注意力权值, 并对输入视频 卷积特征图进行调整, 具体过程包括: 给定输入视频的卷积特 征图; 对每个特征通道中T帧特 征图的空间信息进行时间聚合; 在时间聚合后的视频特征图上应用全局空间平均池化来压缩空间信息以获得通道描 述子; 基于所述通道描述子, 进行通道注意力计算, 得到视频级的通道注意力得分, 作为不同 特征通道的权 重; 基于所述权重对原始输入卷积特征图进行调整, 得到通道注意力校准后的视频卷积特 征图。 8.如权利要求7所述的一种基于通道注意力导向时间建模的视频行为识别系统, 其特 征在于, 所述通道注 意力生成模块和残差时间建模模块共同构成通道注意力导向残差时间 建模模块; 将所述通道注意力导向残差时间建模模块嵌入到任一2D网络中构建通道注意力导向 残差时间建模网络, 使其具 备时间建模的能力; 基于所述 通道注意力导向残差时间建模网络来进行视频 行为识别。 9.一种终端设备, 其包括处理器和存储器, 处理器用于实现各指令; 存储器用于存储多 条指令, 其特征在于, 所述指 令适于由处理器加载并执行权利要求 1‑6任一项所述的基于通 道注意力导向时间建模的视频 行为识别方法。权 利 要 求 书 2/2 页 3 CN 112818843 B 3

.PDF文档 专利 基于通道注意力导向时间建模的视频行为识别方法及系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于通道注意力导向时间建模的视频行为识别方法及系统 第 1 页 专利 基于通道注意力导向时间建模的视频行为识别方法及系统 第 2 页 专利 基于通道注意力导向时间建模的视频行为识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:23:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。