说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210463423.1 (22)申请日 2022.04.28 (65)同一申请的已公布的文献号 申请公布号 CN 114758282 A (43)申请公布日 2022.07.15 (73)专利权人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 李平 张陈翰 王涛  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 专利代理师 陈炜 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) H04N 19/136(2014.01) (56)对比文件 CN 114067251 A,202 2.02.18 CN 113422952 A,2021.09.21 CN 112700475 A,2021.04.23 审查员 赵慧敏 (54)发明名称 基于时序校正卷积的视频预测方法 (57)摘要 本发明公开了基于时序校正卷积的视频预 测方法。 本发 明方法对 给定的原始视频进行采样 预处理获得视频帧序列, 并将该序列输入时序上 下文融合模块, 得到融合外观特征图和融合时空 编码特征图, 同时将该序列输入时序卷积校正模 块得到卷积校正张量; 然后, 将得到的融合外观 特征图、 融合时空编码特征图和卷积校正张量通 过自适应卷积时空编码器生成预测时空编码特 征图; 最后将预测时空编码特征图通过时空记忆 解码器进行解码, 输出预测视频帧序列。 本发明 方法不仅能够依据不同时刻 的视频帧对卷积核 参数进行校正, 还能通过时序上下文融合策略对 当前视频帧和历史帧时空编码特征的内在关系 进行建模, 从而生成更高视觉质量的预测视频帧 序列。 权利要求书3页 说明书7页 附图1页 CN 114758282 B 2022.12.06 CN 114758282 B 1.基于时序校正卷积的视频预测方法, 其特征在于, 首先获取原始视频数据集合, 然后 依次进行如下操作: 步骤(1)对原始视频进行采样, 获得视频帧序列, 将视频帧序列输入至时序上下文融合 模块, 输出对应的融合外观特 征图和融合时空编码特 征图; 步骤(2)构建时序卷积校正模块, 输入为同一视频帧序列内两个长短不同的片段, 输出 卷积校正张量; 所述的时序卷积校正模块由两个三维卷积层构 成, 分别用于提取短期和长期历史视频 帧序列中的时空特征, 根据短期历史视频帧序列 和长期历史视频帧序列 生成卷 积校正张量, 具体是: (2‑1)根据输入的同一视频帧序列内两个长短不同的片段构造短期历史视频帧序列 和长期历史视频帧序列 当不足 5帧时, 长短期视频帧序列元 素由全0初始化补全; (2‑2)将短期历史视频帧序列 在空间维度上进行全局平均池化后, 通过三维卷积 得到短期上下文时空特征 Pooling( ·)为空 间维度上的全局平均池化, Conv3D1(·)表示输入通道为3、 输出通道为C、 卷积核尺寸为3 × 1×1的三维卷积层; (2‑3)将长期历史视频帧序列 在时序、 空间维度上进行全局平均池化后, 通过三维 卷积得到长期上下文时空特征 GAP(·)为在时序、 空间维度上的全局平均池化操作, Conv3D2(·)表示输入通道为3、 输出通道为C、 卷积核尺 寸为1×1×1的三维卷积层; (2‑4)将短期上下文时空特征At和长期上下文时空特征Bt通过Rt=δ(At+Bt)得到卷积校 正张量 其中δ(·)为ReLU激活函数, Rt的四个维度分别表示卷积核长、 卷积核 宽、 卷积核输入通道数、 卷积核输出通道数; 步骤(3)利用卷积长短时记忆模块构建自适应卷积时空编码器, 输入为融合外观特征 图、 融合时空编码特 征图、 卷积校正张量, 输出为预测时空编码特 征图; 步骤(4)构建时空记忆解码器, 输入为融合 时空编码特征图和预测时空编码特征图, 输 出为预测视频帧; 步骤(5)利用随机梯度下降算法优化由时序上下文融合模块、 时序卷积校正模块、 自适 应卷积时空编 码器和时空记忆解码器组成的视频预测模型, 对新的视频序列依次通过步骤 (1)~(4)得到后续预测视频序列。 2.如权利要求1所述基于时序校正卷积的视频 预测方法, 其特 征在于, 步骤(1)具体是: (1‑1)对原始视频以采样率为每秒5~10帧进行采样, 得到数量为N的视频帧序列 其中, 表示实数域, Xt表示第t帧, t=1,2, …,N, H表示视频帧高度, W 表示视频帧宽度, 3表示RGB通道数量; (1‑2)构建由两个二维卷积层组成的时序上下文融合模块, 卷积核尺寸为5 ×5, 填充为权 利 要 求 书 1/3 页 2 CN 114758282 B 22, 步长为1, 两个卷积 操作分别用于提取视频帧外观特 征和视频帧时空特 征; (1‑3)时序上下文融合模块的输入为第t帧 和历史时空编码特征图 序列 C表示通道维度, 当不足3帧时, 该序列的元素均由全0 初始化补全; 将Xt和第t‑3个时空编码特征图Ht‑3经过卷积和 逐元素相乘操作融合, 得到强 化外观特征图 X′t=2σ(Conv1(Ht‑3))⊙Xt, 符号⊙表示逐元素乘积, σ( ·)表示 Sigmoid激活函数; 再将第t ‑1个时空编码特征图Ht‑1和强化外观特征图X ′t经过卷积和逐元 素相乘操作融合, 得到强化时空编码特征图 H′t‑1=2σ(Conv2(X′t))⊙Ht‑1, Conv1(·)、 Conv2(·)表示卷积核大小为5 ×5的二维卷积层; (1‑4)将强化外观特征图X ′t和第t‑2个时空编码特征图Ht‑2经过卷积和逐元素相乘操作 融合, 得到融合外观特征图 X″t=2σ(Conv1(Ht‑2))⊙X′t; 再将融合外观特征图 X″t与强化时空编码特征图H ′t‑1经过卷积和 逐元素相乘操作融合, 得到融合时空编码特征 图 H″t‑1=2σ(Conv2(X″t))⊙H′t‑1。 3.如权利要求2所述基于时序校正卷积的视频 预测方法, 其特 征在于, 步骤(3)具体是: (3‑1)利用卷积长短时记忆模块构建自适应卷积时空编码器, 所述的卷积长短时记忆 模块是将长短时记 忆单元LSTM中的全连接层替换成卷积层后得到的模块; (3‑2)将融合外观特征图X ″t、 融合时空编码特征图H ″t‑1和卷积校正张量Rt输入自适应 卷积时空编码器, 获得 卷积长短时记 忆模块的第t个输入门 It=σ((Broadcast(Rt)⊙W1)*X″t+(Broadcast(Rt)⊙W2)*H″t‑1); 其中, 和 为二维卷积对应的卷积核, 上标表示四个维度, 分别表示卷积核长、 卷积核 宽、 卷积核输入通道数、 卷积核输出通道数, Broadcast( ·)用于对Rt的卷积核长、 卷积核宽 和卷积核输入通道数维度进行复制使其维度和对应卷积核相等, *表示卷积 操作; (3‑3)将融合外观 特征图X″t、 融合时空编码特征图Ht″‑1和卷积校正张量Rt作为输入, 获 得卷积长短时记 忆模块的第t个遗 忘门 和第t个输入调制门 Ft=σ((Broadcast(Rt)⊙W3)*X″t+(Broadcast(Rt)⊙W4)*H″t‑1); 其中, 和 为二维卷积对应的卷积核; Gt=tanh((Broadcast(Rt)⊙W5)*X″t+(Broadcast(Rt)⊙W6)*H″t‑1); 其中, tanh( ·)为 双曲正切函数, 和 为二维卷积对应的卷积核; (3‑4)计算得到时空记忆状态 Mt=It⊙Gt+Ft⊙Mt‑1; 当t=1时, M0由全0初始 化得到; (3‑5)将融合外观 特征图X″t、 融合时空编码特征图H ″t‑1和卷积校正张量Rt作为输入, 获 得卷积长短时记 忆模块的第t个输出门 Ot=σ((Brodcast(Rt)⊙W7)*X″t+(Brodcast(Rt)⊙W8)*H″t‑1); 其中, 和 为二维卷积对应的卷积核; (3‑6)获得预测时空编码特 征图 Ht=Ot⊙tanh(Mt)。权 利 要 求 书 2/3 页 3 CN 114758282 B 3

.PDF文档 专利 基于时序校正卷积的视频预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于时序校正卷积的视频预测方法 第 1 页 专利 基于时序校正卷积的视频预测方法 第 2 页 专利 基于时序校正卷积的视频预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。