说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210501874.X (22)申请日 2022.05.10 (71)申请人 东北大学 地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人 雷为民 姜怡晗 侯玉莹 张伟  叶文慧  (74)专利代理 机构 沈阳东大知识产权代理有限 公司 21109 专利代理师 李在川 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于时空卷积神经网络的视频显著性目标 检测系统及方法 (57)摘要 本发明提供一种基于时空卷积神经网络的 视频显著性目标检测系统及方法, 所述系统包括 空间特征提取模块、 时空一致特征增强模块、 特 征融合及上采样模块、 低级语义信息链接模块、 解码器; 采用一种嵌入了交叉自注 意力计算机制 的循环神经网络来进行时空一致性特征的提取, 对特征图中的特征值进行加权提升显著性特征 和非显著性特征的对比度, 在一定程度上避免背 景信息对前景信息的干扰; 同时, 采用一种低级 语义信息链接模块将低级空间特征和时空一致 性特征融合, 减少低级空间特征的损失, 使得物 体边缘的预测更加准确。 本发明相对于传统的视 频显著性目标检测方法, 能够兼顾速度和精度, 是一种更加适用于实际视频显著性目标检测的 方法。 权利要求书3页 说明书8页 附图3页 CN 114926760 A 2022.08.19 CN 114926760 A 1.一种基于时空卷积神经网络的视频显著性目标检测系统, 其特征在于, 包括: 空间特 征提取模块、 时空一致特征增强模块、 特征融合及上采样模块、 低级语义信息链接模块、 解 码器; 所述空间特 征提取模块用于提取视频帧的空间特 征; 所述时空一致特征增强模块用于提取视频帧的时空一致性特征, 并对特征图中的特征 值进行加权操作; 所述低级语义信 息链接模块用于提取低级空间特征, 去除低级空间特征的背景冗余信 息; 所述特征融合及上采样模块用于将低级空间特征与时空一致性特征进行融合, 并将特 征图扩张到与输入视频同等大小; 所述解码器用于对特征图进行解码操作得到视频序列中每张图像对应的显著性目标 掩码。 2.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统, 其 特征在于, 所述空间特 征提取模块包括: 残差模块和空洞卷积金字塔池化模块; 所述残差模块用于对空间特 征进行建模操作; 所述空洞卷积金字塔池化模块用于提取多尺度的空间特 征得到空间特 征图。 3.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统, 其 特征在于, 所述时空一致特征增强模块包括: 双向ConvLSTM模块、 注 意力模块I、 注 意力模块 II、 拼接模块; 所述双向ConvLSTM模块用于根据当前帧和前向帧以及当前帧和后向帧之间的时空相 关性进行建模操作; 所述注意力 模块I用于对双向ConvLSTM模块的前向单元得到的特征图中的特征点进行 加权; 所述注意力模块II用于对双向ConvLSTM模块的后向单元得到的特征图中的特征点进 行加权; 所述拼接模块用于将双向ConvLSTM模块前向单元得到的特征图和后向单元得到的特 征图进行拼接, 通过tanh 激活函数 得到具有时空一 致性的视频 特征帧。 4.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统, 其 特征在于, 所述低级语义信息链接模块包括: 链接模块 I、 链接模块 II、 链接模块 III; 所述链接模块 I用于提取残差模块中第四个卷积层输出的低级空间特 征; 所述链接模块 II用于提取残差模块中第三个卷积层输出的低级空间特 征; 所述链接模块 III用于提取残差模块中第二个卷积层输出的低级空间特 征。 5.一种基于时空卷积神经网络的视频显著性目标检测方法, 基于权利要求1~4任意一 项所述的基于时空卷积神经网络的视频显著性 目标检测系统实现, 其特征在于, 所述方法 包括: 步骤1: 采集包 含T帧图像的视频, 提取视频帧的空间特 征; 步骤2: 提取视频帧的时空一 致性特征, 对特征图中的特 征值进行加权操作; 步骤3: 根据深度可分离卷积 操作提取低级空间特 征; 步骤4: 将低级空间特征与时空一致性特征进行特征融合及上采样操作, 得到包含T帧权 利 要 求 书 1/3 页 2 CN 114926760 A 2视频的高级特 征图; 步骤5: 对高级特 征图解码得到 视频序列中每张图像对应的显著性目标掩码。 6.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法, 其 特征在于, 所述步骤1具体表述为: 采用预训练后的残差模块对空间特征进行建模, 残差模 块使用残差网络Resnet ‑50的前5组层, 同时移除第五层的下采样操作, 然后将残差模块输 出的特征输入到空洞卷积金字塔池化模块 提取多尺度的空间特 征得到空间特 征图。 7.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法, 其 特征在于, 所述 步骤2包括: 步骤2.1: 采用双向convLSTM模块的前向单元对空间特征提取模块输出的空间特征进 行当前帧和前向 帧之间的时空相关性建模操作, 得到前向单 元的输出 结果; 步骤2.2: 将前向单元的输出结果送入注意力模块I, 对前向单元得到的特征图中的特 征点进行加权得到包 含非显著性目标和显著性目标对比度的特 征图G1; 步骤2.3: 经过注意力模块I加权后, 将得到的特征图输入到后向单元进行当前帧和后 向帧之间的时空相关性建模操作; 步骤2.4: 将后向单元的输出结果送入注意力模块II, 对后向单元得到的特征图中的特 征点进行加权得到包 含非显著性目标和显著性目标对比度的特 征图G2; 步骤2.5: 将特征图G1、 特征图G2进行拼接, 输入一层 卷积核为3*3的卷积层进行特征提 取, 然后通过tanh 激活函数 得到具有时空一 致性的视频 特征帧。 8.根据权利要求7所述的一种基于时空卷积神经网络的视频显著性目标检测方法, 其 特征在于, 所述步骤2中的注意力模块I、 注意力模块III是基于自注 意力机制构建的十字交 叉注意力模块CCA, 输入特征经过三个并行且卷积核大小为1*1的卷积层, 得到三个特征张 量: Q、 K、 V; 然后将Q和K输入第一个注 意力分布计算层以得到Q和K之间的注 意力分布图A, 计 算过程如下 所示: di,u=quki,u     (1) A=softmax(D)      (2) 式中, qu表示Q中一个维度的张量; ki,u表示K中和qu中具有相同横坐标或者纵坐标的所 有特征点; di,u表示Q中每一个通道中的特 征点和K中特 征点的关系, softmax表示激活函数; 将得到的特征张量A和V输入第二个注意力分布计算层, 根据公式(1)、 (2)计算A和V之 间的注意力 分布, 然后将该注意力作为权重分布添加到原始的特征图中, 即得到了包含显 著性目标和非显著性目标对比度的高级特 征图。 9.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法, 其 特征在于, 所述 步骤3包括: 步骤3.1: 将空间特征提取模块中的残差模块第2、 3、 4卷积层得到的不同粒度的空间特 征并行送入链接模块I、 II、 III的第一层, 先进行卷积操作, 在卷积操作后使用归一化操作 进行数据的归一 化; 步骤3.2: 将归一化后的空间特征并行送入链接模块I、 II、 III的第二层, 采用深度可分 离卷积操作对显著 性目标进 行细节特征的提取, 卷积核的大小采用3*3的尺 寸, 每个卷积操 作后的结果都送入 归一化层, 最后经 过一个ReLU激活函数; 步骤3.3: 将步骤3.2得到的结果并行送入链接模块I、 II、 III的第三层进行卷积操作,权 利 要 求 书 2/3 页 3 CN 114926760 A 3

.PDF文档 专利 基于时空卷积神经网络的视频显著性目标检测系统及方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时空卷积神经网络的视频显著性目标检测系统及方法 第 1 页 专利 基于时空卷积神经网络的视频显著性目标检测系统及方法 第 2 页 专利 基于时空卷积神经网络的视频显著性目标检测系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。