专利基于时序校正卷积的视频预测方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210463423.1 (22)申请日 2022.04.28 (65)同一申请的已公布的文献号申请公布号 CN 114758282 A (43)申请公布日 2022.07.15 (73)专利权人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人李平　张陈翰　王涛　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师陈炜 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 19/136(2014.01) (56)对比文件 CN 114067251 A,202 2.02.18 CN 113422952 A,2021.09.21 CN 112700475 A,2021.04.23 审查员赵慧敏 (54)发明名称基于时序校正卷积的视频预测方法 (57)摘要本发明公开了基于时序校正卷积的视频预测方法。本发明方法对给定的原始视频进行采样预处理获得视频帧序列，并将该序列输入时序上下文融合模块，得到融合外观特征图和融合时空编码特征图，同时将该序列输入时序卷积校正模块得到卷积校正张量；然后，将得到的融合外观特征图、融合时空编码特征图和卷积校正张量通过自适应卷积时空编码器生成预测时空编码特征图；最后将预测时空编码特征图通过时空记忆解码器进行解码，输出预测视频帧序列。本发明方法不仅能够依据不同时刻的视频帧对卷积核参数进行校正，还能通过时序上下文融合策略对当前视频帧和历史帧时空编码特征的内在关系进行建模，从而生成更高视觉质量的预测视频帧序列。权利要求书3页说明书7页附图1页 CN 114758282 B 2022.12.06 CN 114758282 B 1.基于时序校正卷积的视频预测方法，其特征在于，首先获取原始视频数据集合，然后依次进行如下操作：步骤(1)对原始视频进行采样，获得视频帧序列，将视频帧序列输入至时序上下文融合模块，输出对应的融合外观特征图和融合时空编码特征图；步骤(2)构建时序卷积校正模块，输入为同一视频帧序列内两个长短不同的片段，输出卷积校正张量；所述的时序卷积校正模块由两个三维卷积层构成，分别用于提取短期和长期历史视频帧序列中的时空特征，根据短期历史视频帧序列和长期历史视频帧序列生成卷积校正张量，具体是： (2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列和长期历史视频帧序列当不足 5帧时，长短期视频帧序列元素由全0初始化补全； (2‑2)将短期历史视频帧序列在空间维度上进行全局平均池化后，通过三维卷积得到短期上下文时空特征 Pooling( ·)为空间维度上的全局平均池化， Conv3D1(·)表示输入通道为3、输出通道为C、卷积核尺寸为3 × 1×1的三维卷积层； (2‑3)将长期历史视频帧序列在时序、空间维度上进行全局平均池化后，通过三维卷积得到长期上下文时空特征 GAP(·)为在时序、空间维度上的全局平均池化操作， Conv3D2(·)表示输入通道为3、输出通道为C、卷积核尺寸为1×1×1的三维卷积层； (2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt＝δ(At+Bt)得到卷积校正张量其中δ(·)为ReLU激活函数， Rt的四个维度分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数；步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器，输入为融合外观特征图、融合时空编码特征图、卷积校正张量，输出为预测时空编码特征图；步骤(4)构建时空记忆解码器，输入为融合时空编码特征图和预测时空编码特征图，输出为预测视频帧；步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、时序卷积校正模块、自适应卷积时空编码器和时空记忆解码器组成的视频预测模型，对新的视频序列依次通过步骤 (1)～(4)得到后续预测视频序列。 2.如权利要求1所述基于时序校正卷积的视频预测方法，其特征在于，步骤(1)具体是： (1‑1)对原始视频以采样率为每秒5～10帧进行采样，得到数量为N的视频帧序列其中，表示实数域， Xt表示第t帧， t＝1,2, …,N， H表示视频帧高度， W 表示视频帧宽度， 3表示RGB通道数量； (1‑2)构建由两个二维卷积层组成的时序上下文融合模块，卷积核尺寸为5 ×5，填充为权　利　要　求　书 1/3 页 2 CN 114758282 B 22，步长为1，两个卷积操作分别用于提取视频帧外观特征和视频帧时空特征； (1‑3)时序上下文融合模块的输入为第t帧和历史时空编码特征图序列 C表示通道维度，当不足3帧时，该序列的元素均由全0 初始化补全；将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和逐元素相乘操作融合，得到强化外观特征图 X′t＝2σ(Conv1(Ht‑3))⊙Xt，符号⊙表示逐元素乘积， σ( ·)表示 Sigmoid激活函数；再将第t ‑1个时空编码特征图Ht‑1和强化外观特征图X ′t经过卷积和逐元素相乘操作融合，得到强化时空编码特征图 H′t‑1＝2σ(Conv2(X′t))⊙Ht‑1， Conv1(·)、 Conv2(·)表示卷积核大小为5 ×5的二维卷积层； (1‑4)将强化外观特征图X ′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作融合，得到融合外观特征图 X″t＝2σ(Conv1(Ht‑2))⊙X′t；再将融合外观特征图 X″t与强化时空编码特征图H ′t‑1经过卷积和逐元素相乘操作融合，得到融合时空编码特征图 H″t‑1＝2σ(Conv2(X″t))⊙H′t‑1。 3.如权利要求2所述基于时序校正卷积的视频预测方法，其特征在于，步骤(3)具体是： (3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器，所述的卷积长短时记忆模块是将长短时记忆单元LSTM中的全连接层替换成卷积层后得到的模块； (3‑2)将融合外观特征图X ″t、融合时空编码特征图H ″t‑1和卷积校正张量Rt输入自适应卷积时空编码器，获得卷积长短时记忆模块的第t个输入门 It＝σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t‑1)；其中，和为二维卷积对应的卷积核，上标表示四个维度，分别表示卷积核长、卷积核宽、卷积核输入通道数、卷积核输出通道数， Broadcast( ·)用于对Rt的卷积核长、卷积核宽和卷积核输入通道数维度进行复制使其维度和对应卷积核相等， *表示卷积操作； (3‑3)将融合外观特征图X″t、融合时空编码特征图Ht″‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个遗忘门和第t个输入调制门 Ft＝σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t‑1)；其中，和为二维卷积对应的卷积核； Gt＝tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1)；其中， tanh( ·)为双曲正切函数，和为二维卷积对应的卷积核； (3‑4)计算得到时空记忆状态 Mt＝It⊙Gt+Ft⊙Mt‑1；当t＝1时， M0由全0初始化得到； (3‑5)将融合外观特征图X″t、融合时空编码特征图H ″t‑1和卷积校正张量Rt作为输入，获得卷积长短时记忆模块的第t个输出门 Ot＝σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1)；其中，和为二维卷积对应的卷积核； (3‑6)获得预测时空编码特征图 Ht＝Ot⊙tanh(Mt)。权　利　要　求　书 2/3 页 3 CN 114758282 B 3

专利 基于时序校正卷积的视频预测方法

专利基于时序校正卷积的视频预测方法