(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210636564.9
(22)申请日 2022.06.07
(71)申请人 山东省人工智能研究院
地址 250000 山东省济南市历下区科院路
19号
申请人 青岛海尔智能技 术研发有限公司
烟台艾睿光电科技有限公司
苏州天瞳威视电子科技有限公司
(72)发明人 高赞 崔兴磊 陶俊伟 宋健明
王水跟 朱文印 张蕊
(74)专利代理 机构 山东知圣律师事务所 37262
专利代理师 丁奎英
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)G06V 20/50(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/40(2022.01)
G06N 3/04(2006.01)
(54)发明名称
基于全局知识挖掘和前景注意力的交互视
频动作检测方法
(57)摘要
本发明公开了一种基于全局知识挖掘和前
景注意力的交互视频动作检测方法, 准确地实现
了对视频中动作实例的定位和分类; 方法的具体
步骤如下: 对视频进行预处理, 通过I3D网络将生
成的视频帧获得时空特征序列
, 将特征序列
输入到上下文信息提取模块提取不同层次的特
征序列F, 通过时间信息提取模块挖掘视频的全
局信息, 将特征序列F和特征序列
连接起来, 得
到粗时间边界和粗分类, 根据不同层次的特征结
合损失函数利用前景信息增强模块得到精细化
特征; 本发 明基于已知数据集对视频中的动作实
例进行高效定位和分类, 并且方法收敛速度快。
权利要求书3页 说明书7页 附图2页
CN 114998799 A
2022.09.02
CN 114998799 A
1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法, 其特征在于, 该方
法具体包 含以下步骤:
1)对视频进行预处理, 将未修剪的视频抽取成帧, 表示为
在训练集中包含T
帧;
2)通过I3D网络将生成的视频帧获得时空特征序列, 将获得的时空特征经过3D卷积变
成1D特征序列F ′, 使特征包含整个视频的时间和空间信息, 把特征序列F ′作为整个视频的
特征表示;
3)将特征序列F ′输入到上下文信息提取模块提取不同层次的特征, 采用线性插值将高
层特征的信息递归加到低层特征中, 获得具有充足的语义信息和局部细 节的特征
Tn∈{2,4,8, …,64}代表不同的时间尺度, C代表的是特征的通道, 同时该模块还会产生用
于边界池化的帧级特 征;
4)通过时间信息提取模块将视频帧作为输入, 利用编码层从整个视频中获取时间信
息, 用于补偿不同层次的特 征在下采样过程中丢失的时间信息;
5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接
起来, 获得具有丰富上 下文信息的特 征序列
6)基于以上特征, 得到粗时间边界
和粗分类cC,
代表位置i到开始时间的距
离,
代表位置i到结束时间的距离, i∈{0,1, …,t‑1}, t代表的是金字塔特 征的时间长度;
7)获取第i个位置开始时间和结束时间:
其中
表示特征中相应第i个位置的粗开始时间,
表示特征中相应第i个位置的粗
结束时间;
8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征, 利用精
细化特征, 得到精细化边界偏移和精细化分类, 并将边界偏移加到粗边界上得到精细化边
界, 所述损失函数 具体如下:
其中
和
分别是粗分类和细分类的损失函数用来约束视频预测的分类结果,
和
分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界
结果, Lbce是二元交叉熵的损失函数, α 和β 是超参数。
2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,
其特征在于, 所述 通过时间信息提取模块获取时间信息的具体步骤如下:
利用空间编码器对同一 时间索引中提取的块之间建立关系, 然后将所有的空间编码器
输出的特征输入到对不同时间索引的帧建立联系的时间编 码器中捕获全局信息, 获取具有
时间信息的多个时间尺度的特征
式中Tn代表不同的时间尺度, C为特征的通道,权 利 要 求 书 1/3 页
2
CN 114998799 A
2具体公式如下:
式中SpatialT代表的是空间编码器, TemporalT代表的是时间编码器, Linear代表的是
全连接层, embedi ng是将时间加入空间特 征并进行嵌入;
3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,
其特征在于, 所述利用前 景信息增强模块得到精细化特 征, 具体过程如下:
1)将粗边界和粗分类的结果输入到边界池化层,
2)将整个视频帧输入到 前景信息增强模 块, 该模块将每个视 频帧xi∈RH×W×C进行图像分
块处理, 将H×W×C的图片用P ×P大小的块将每一个视频帧分成D=HW/P2个块;
将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征,
实现过程 为:
Fframe=Linear(FSA(xi))i=1,…,T, (5)
式中FSA是前景信息注意编码器, 在自注意力的基础上增加了下采样操作, 采用1D线性
插值实现下采样;
3)将Fframe与上下文信息提取模块输出的帧级特征进行融合, 得到特征F ′frame作为边界
池化的另一个输入, 用于精细预测;
4)把粗预测过程中的特征
和F, 以及精细预测过程中的帧级特征F ′frame经过边界
池化得到细粒度的特 征
和
5)
和
分别经过两个不同的1D 卷积进行精细化预测, 其中一个卷积被用来预测边
界回归的偏移量
和
分别表示开始时间和结束时间的偏 移, 另一个卷积
用来预测精细化的分类cR, 最后将得到的偏移量
加到粗边界获得精细化边界
和
分别表示精细化的开始和结束的时间;
4.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法,
其特征在于, 所述粗分类中使用focal损失函数作为约束, 调整正负样本的权重和控制困难
和容易分类的样 本, 由于正负样本本身比例不均匀, 并且负样本易分, 因此我们引入一个参
数γ, 平衡比列并且调节为0.75, 防止过拟合, 具体公式如下:
其中NC是粗略过程中正样本的数量,
是粗粒度过程预测的粗分类结果, ci是真实标
签。
所述精细化分类中使用focal损失函数作为约束条件, 具体公式如下:
其中NR是当粗糙提议与真实样本的tIoU大于0.5时精化 过程中正样本的数量,
是预测
的精化分类结果 通过细化过程, ci是真实标签,权 利 要 求 书 2/3 页
3
CN 114998799 A
3
专利 基于全局知识挖掘和前景注意力的交互视频动作检测方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:48:27上传分享