(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111669113.7
(22)申请日 2021.12.31
(71)申请人 北京工业大 学
地址 100124 北京市朝阳区平乐园10 0号
(72)发明人 任柯燕 张云路 张淳 闫桐
赵虎
(74)专利代理 机构 北京思海天达知识产权代理
有限公司 1 1203
代理人 沈波
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于语义指导的视频行为检测方法
(57)摘要
本发明公开了基于语义指导的视频行为检
测方法, 通过特征的下采样来扩大时间感受野,
并将线性插值用于上采样环节, 从而得到视频时
序上的粗略语义信息, 用于指导时间卷积模型的
输出; 同时对模型的主干网络使用参数共享结
构, 将网络分为了三部分: 生 成粗略预测、 细化和
最终预测, 以实现网络层数与参数量的最佳搭
配; 针对模型的时间建模能力, 本发明提供了一
种不需人工标注的视频速度预测的自监督辅助
任务, 可通过随机采样率的变换来模拟视频的播
放速度, 以辅助主干网络生成质量更高的预测。
本发明主要针对以人为主体的视频, 具有参数量
低、 精度高, 方便对长视频进行操作等特点; 对于
无人的视频, 本发明根据转场对视频进行分割。
权利要求书1页 说明书3页 附图2页
CN 114332723 A
2022.04.12
CN 114332723 A
1.基于语义指导的视频 行为检测方法, 其特 征在于, 所述方法包括以下步骤:
S1、 在Kinetics‑600数据集上对I3D模型进行训练;
S2、 使用在S1中训练好的I3D模型对Breakfast长视频数据集中的视频提取2048维的特
征;
S3、 将S2中提取的视频特征集作为任务的训练集, 并分别输入到第一个语义指导模块
SG1和主干网络的 “生成粗略预测 ”阶段中, 并将它们的输出进行加和, 得到第一阶段最终的
输出O1; 计算O1与Breakfast数据集中的人工注释标签GT所产生的交叉熵损失L1; 同时生成
随机速率P, 对O1进行速率P的采样, 并通过VGG16网络对该速率进行预测, 产生交叉熵损失
L1p;
S4、 将S3中得到的O1作为第二个语义指导模块SG2和“细化”阶段R1的输入, 将SG2和R1的
输出进行加和, 得到输出O2; 计算O2与GT所产生的交叉熵损失L2; 同S3, 将O2作为“视频速度
预测”辅助任务的输入, 产生交叉熵损失L2p;
S5、 将S4中得到的O2作为第二个语义指导模块SG3和“细化”阶段R2的输入, 将SG3和R2的
输出进行加和, 得到输出O3; 计算O3与GT所产生的交叉熵损失L3; 并将O3作为“视频速度预
测”辅助任务的输入, 产生交叉熵损失L3p;
S6、 将S5中得到的O3作为“细化”阶段R3的输入, 并得到 “细化”阶段的输出O4; 计算O4与GT
所产生的交叉熵损失L4; 并将O4作为“视频速度预测 ”辅助任务的输入, 产生交叉熵损失L4p;
S7、 将S6中所得到O4作为“最终预测 ”阶段的输入, 并得到模型最终的输出O; 计算O与GT
所产生的交叉熵损失L5; 并将O作为 “视频速度预测 ”辅助任务的输入, 产生交叉熵损失L5p;
S8、 计算模型总体的损失L=ΣLi+ΣLip, 并进行反向传播, 优化模型参数, 直至损失收
敛, 训练结束; Li为L1‑L5; Lip为L1p‑L5p。
2.如权利要求1所述的基于语义指导的视频行为检测方法, 其特征在于, 所述视频速度
预测步骤具体为:
S1、 对模型每阶段的输出设置随机采样率, 并根据采样率p进行采样, 得到采样过后的
特征序列;
S2、 将S1中得到 的采样过后的特征序列输入到VGG16的分类网络中, 并做出预测, 得到
预测的采样率q;
S3、 对S2中预测得到的q与实际的采样率p计算交叉熵损失, 得到损失L;
S4、 通过得到的损失L进行反向传播, 从而优化主干网络的参数。权 利 要 求 书 1/1 页
2
CN 114332723 A
2基于语义指导的视频行为检测方 法
技术领域
[0001]本发明属于人工智能、 计算机视觉、 视频理解领域, 基于时间卷积网络实现长视频
中行为的定位与分类。 用于日常视频中的信息与事 件的发掘。
背景技术
[0002]近年来随着互联 网的发展与摄影设备的骤增, 视频数据的数量呈现着爆炸式的增
长。 在视频领域中, 视频分为: 剪辑过的短视频与未剪辑的长视频。 剪辑过的短视频由于经
过人工处理, 使得它只具有单独的语义, 其数据结构简单导致对短视频操作的难度十 分低,
这使得基于短视频的视频分类等任务的研究已经比较成熟。 但针对未剪辑的长视频的研
究, 由于其具有信息冗长、 数据分布杂乱、 数据过于复杂等特点, 这使得对长视频的操作变
得十分困难。 而我们日常生活中更为常见 的便是这种 未经剪辑的长视频数据, 所以要保持
对这些长视频 的日常管理和操作就变得十分困难, 这需要耗费极高的人工成本。 本文提出
的基于语义指导的视频行为检测方法, 通过时间卷积神经网络对未剪辑的长视频进行时间
建模, 并根据前后文信息为视频的每一帧分配类别, 从而实现对视频的帧级预测, 这样就可
以得到行为的起始终止时间戳, 从而帮助视频操作人员更加快速准确的定位, 以方便进行
后续操作。
[0003]时间卷积网络作为处理序列结构的神经网络的一种, 相较于循环神经网络等拥有
更为灵活的感受野, 更稳定的梯度, 并且占用更少的内存, 同时它能够对输入并行处理, 这
极大的加快了模型 的计算速度。 目前现有方法多基于时间卷积模型, 但这些方法都面临着
精度低且存在过度分割现象。 时间卷积模型的时间建模能力的强弱与 “过度分割 ”将极大影
响所提出模型的实际使用效果, 所以如何提升时间建模能力和有效避免过度分割问题的出
现, 成为了目前急需解决的问题。 同时, 在深度学习中, 适当增加 参数量与网络层数会提升
预测效果, 但过度地增加会导致模型过拟合, 所以如何权衡层数与参数量之间的关系同样
也是一个需要解决的问题。
发明内容
[0004]针对上述问题, 本发明提供了一种基于语义指导的视频行为检测方法, 该方法充
分考虑到由于时间卷积结构所导致的过度分割现象的出现, 提出了 “语义指导 ”模块用于捕
获长距离时序范围中的语义信息, 它通过特征 的下采样来扩大时间感受野, 并将线性插值
用于上采样环节, 从而得到时序上 的粗略语义信息; 同时使用参数共享结构对模型 的主干
网络做了相应改进, 将网络分为了三部分: 生成粗略预测、 细化和最终预测, 其中细化阶段
使用了参数共享, 以实现 网络层数与参数量的最佳搭配; 并且进一步的, 针对模 型的时间建
模能力会直接影响最 终预测结果的问题, 本发明提供了一种不需人工标注的视频速度预测
的自监督辅助任务, 可通过随机采样率的变换来模拟视频 的播放速度, 以辅助主干网络生
成质量更高的预测。 基于语义指导的视频 行为检测方法, 所述方法包括以下步骤:
[0005]S1、 通过训练好的I3D模型对视频提取I3D特 征;说 明 书 1/3 页
3
CN 114332723 A
3
专利 基于语义指导的视频行为检测方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:02上传分享