专利基于时空卷积神经网络的视频显著性目标检测系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210501874.X (22)申请日 2022.05.10 (71)申请人东北大学地址 110819 辽宁省沈阳市和平区文化路3 号巷11号 (72)发明人雷为民　姜怡晗　侯玉莹　张伟　叶文慧　 (74)专利代理机构沈阳东大知识产权代理有限公司 21109 专利代理师李在川 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/77(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于时空卷积神经网络的视频显著性目标检测系统及方法 (57)摘要本发明提供一种基于时空卷积神经网络的视频显著性目标检测系统及方法，所述系统包括空间特征提取模块、时空一致特征增强模块、特征融合及上采样模块、低级语义信息链接模块、解码器；采用一种嵌入了交叉自注意力计算机制的循环神经网络来进行时空一致性特征的提取，对特征图中的特征值进行加权提升显著性特征和非显著性特征的对比度，在一定程度上避免背景信息对前景信息的干扰；同时，采用一种低级语义信息链接模块将低级空间特征和时空一致性特征融合，减少低级空间特征的损失，使得物体边缘的预测更加准确。本发明相对于传统的视频显著性目标检测方法，能够兼顾速度和精度，是一种更加适用于实际视频显著性目标检测的方法。权利要求书3页说明书8页附图3页 CN 114926760 A 2022.08.19 CN 114926760 A 1.一种基于时空卷积神经网络的视频显著性目标检测系统，其特征在于，包括：空间特征提取模块、时空一致特征增强模块、特征融合及上采样模块、低级语义信息链接模块、解码器；所述空间特征提取模块用于提取视频帧的空间特征；所述时空一致特征增强模块用于提取视频帧的时空一致性特征，并对特征图中的特征值进行加权操作；所述低级语义信息链接模块用于提取低级空间特征，去除低级空间特征的背景冗余信息；所述特征融合及上采样模块用于将低级空间特征与时空一致性特征进行融合，并将特征图扩张到与输入视频同等大小；所述解码器用于对特征图进行解码操作得到视频序列中每张图像对应的显著性目标掩码。 2.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统，其特征在于，所述空间特征提取模块包括：残差模块和空洞卷积金字塔池化模块；所述残差模块用于对空间特征进行建模操作；所述空洞卷积金字塔池化模块用于提取多尺度的空间特征得到空间特征图。 3.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统，其特征在于，所述时空一致特征增强模块包括：双向ConvLSTM模块、注意力模块I、注意力模块 II、拼接模块；所述双向ConvLSTM模块用于根据当前帧和前向帧以及当前帧和后向帧之间的时空相关性进行建模操作；所述注意力模块I用于对双向ConvLSTM模块的前向单元得到的特征图中的特征点进行加权；所述注意力模块II用于对双向ConvLSTM模块的后向单元得到的特征图中的特征点进行加权；所述拼接模块用于将双向ConvLSTM模块前向单元得到的特征图和后向单元得到的特征图进行拼接，通过tanh 激活函数得到具有时空一致性的视频特征帧。 4.根据权利要求1所述的一种基于时空卷积神经网络的视频显著性目标检测系统，其特征在于，所述低级语义信息链接模块包括：链接模块 I、链接模块 II、链接模块 III；所述链接模块 I用于提取残差模块中第四个卷积层输出的低级空间特征；所述链接模块 II用于提取残差模块中第三个卷积层输出的低级空间特征；所述链接模块 III用于提取残差模块中第二个卷积层输出的低级空间特征。 5.一种基于时空卷积神经网络的视频显著性目标检测方法，基于权利要求1～4任意一项所述的基于时空卷积神经网络的视频显著性目标检测系统实现，其特征在于，所述方法包括：步骤1：采集包含T帧图像的视频，提取视频帧的空间特征；步骤2：提取视频帧的时空一致性特征，对特征图中的特征值进行加权操作；步骤3：根据深度可分离卷积操作提取低级空间特征；步骤4：将低级空间特征与时空一致性特征进行特征融合及上采样操作，得到包含T帧权　利　要　求　书 1/3 页 2 CN 114926760 A 2视频的高级特征图；步骤5：对高级特征图解码得到视频序列中每张图像对应的显著性目标掩码。 6.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法，其特征在于，所述步骤1具体表述为：采用预训练后的残差模块对空间特征进行建模，残差模块使用残差网络Resnet ‑50的前5组层，同时移除第五层的下采样操作，然后将残差模块输出的特征输入到空洞卷积金字塔池化模块提取多尺度的空间特征得到空间特征图。 7.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法，其特征在于，所述步骤2包括：步骤2.1：采用双向convLSTM模块的前向单元对空间特征提取模块输出的空间特征进行当前帧和前向帧之间的时空相关性建模操作，得到前向单元的输出结果；步骤2.2：将前向单元的输出结果送入注意力模块I，对前向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图G1；步骤2.3：经过注意力模块I加权后，将得到的特征图输入到后向单元进行当前帧和后向帧之间的时空相关性建模操作；步骤2.4：将后向单元的输出结果送入注意力模块II，对后向单元得到的特征图中的特征点进行加权得到包含非显著性目标和显著性目标对比度的特征图G2；步骤2.5：将特征图G1、特征图G2进行拼接，输入一层卷积核为3*3的卷积层进行特征提取，然后通过tanh 激活函数得到具有时空一致性的视频特征帧。 8.根据权利要求7所述的一种基于时空卷积神经网络的视频显著性目标检测方法，其特征在于，所述步骤2中的注意力模块I、注意力模块III是基于自注意力机制构建的十字交叉注意力模块CCA，输入特征经过三个并行且卷积核大小为1*1的卷积层，得到三个特征张量： Q、 K、 V；然后将Q和K输入第一个注意力分布计算层以得到Q和K之间的注意力分布图A，计算过程如下所示： di,u＝quki,u (1) A＝softmax(D) (2) 式中， qu表示Q中一个维度的张量； ki,u表示K中和qu中具有相同横坐标或者纵坐标的所有特征点； di,u表示Q中每一个通道中的特征点和K中特征点的关系， softmax表示激活函数；将得到的特征张量A和V输入第二个注意力分布计算层，根据公式(1)、 (2)计算A和V之间的注意力分布，然后将该注意力作为权重分布添加到原始的特征图中，即得到了包含显著性目标和非显著性目标对比度的高级特征图。 9.根据权利要求5所述的一种基于时空卷积神经网络的视频显著性目标检测方法，其特征在于，所述步骤3包括：步骤3.1：将空间特征提取模块中的残差模块第2、 3、 4卷积层得到的不同粒度的空间特征并行送入链接模块I、 II、 III的第一层，先进行卷积操作，在卷积操作后使用归一化操作进行数据的归一化；步骤3.2：将归一化后的空间特征并行送入链接模块I、 II、 III的第二层，采用深度可分离卷积操作对显著性目标进行细节特征的提取，卷积核的大小采用3*3的尺寸，每个卷积操作后的结果都送入归一化层，最后经过一个ReLU激活函数；步骤3.3：将步骤3.2得到的结果并行送入链接模块I、 II、 III的第三层进行卷积操作，权　利　要　求　书 2/3 页 3 CN 114926760 A 3

专利 基于时空卷积神经网络的视频显著性目标检测系统及方法

专利基于时空卷积神经网络的视频显著性目标检测系统及方法