专利基于全局知识挖掘和前景注意力的交互视频动作检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210636564.9 (22)申请日 2022.06.07 (71)申请人山东省人工智能研究院地址 250000 山东省济南市历下区科院路 19号申请人青岛海尔智能技术研发有限公司　烟台艾睿光电科技有限公司　苏州天瞳威视电子科技有限公司 (72)发明人高赞　崔兴磊　陶俊伟　宋健明　王水跟　朱文印　张蕊　 (74)专利代理机构山东知圣律师事务所 37262 专利代理师丁奎英 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01)G06V 20/50(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01) (54)发明名称基于全局知识挖掘和前景注意力的交互视频动作检测方法 (57)摘要本发明公开了一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，准确地实现了对视频中动作实例的定位和分类；方法的具体步骤如下：对视频进行预处理，通过I3D网络将生成的视频帧获得时空特征序列，将特征序列输入到上下文信息提取模块提取不同层次的特征序列F，通过时间信息提取模块挖掘视频的全局信息，将特征序列F和特征序列连接起来，得到粗时间边界和粗分类，根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征；本发明基于已知数据集对视频中的动作实例进行高效定位和分类，并且方法收敛速度快。权利要求书3页说明书7页附图2页 CN 114998799 A 2022.09.02 CN 114998799 A 1.一种基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，该方法具体包含以下步骤： 1)对视频进行预处理，将未修剪的视频抽取成帧，表示为在训练集中包含T 帧； 2)通过I3D网络将生成的视频帧获得时空特征序列，将获得的时空特征经过3D卷积变成1D特征序列F ′，使特征包含整个视频的时间和空间信息，把特征序列F ′作为整个视频的特征表示； 3)将特征序列F ′输入到上下文信息提取模块提取不同层次的特征，采用线性插值将高层特征的信息递归加到低层特征中，获得具有充足的语义信息和局部细节的特征 Tn∈{2,4,8, …,64}代表不同的时间尺度， C代表的是特征的通道，同时该模块还会产生用于边界池化的帧级特征； 4)通过时间信息提取模块将视频帧作为输入，利用编码层从整个视频中获取时间信息，用于补偿不同层次的特征在下采样过程中丢失的时间信息； 5)将上文信息捕获模块获得的特征序列F和时间信息提取模块获得的特征序列Fl连接起来，获得具有丰富上下文信息的特征序列 6)基于以上特征，得到粗时间边界和粗分类cC，代表位置i到开始时间的距离，代表位置i到结束时间的距离， i∈{0,1, …,t‑1}， t代表的是金字塔特征的时间长度； 7)获取第i个位置开始时间和结束时间：其中表示特征中相应第i个位置的粗开始时间，表示特征中相应第i个位置的粗结束时间； 8)根据不同层次的特征结合损失函数利用前景信息增强模块得到精细化特征，利用精细化特征，得到精细化边界偏移和精细化分类，并将边界偏移加到粗边界上得到精细化边界，所述损失函数具体如下：其中和分别是粗分类和细分类的损失函数用来约束视频预测的分类结果，和分别是粗边界回归和细化边界回归的损失函数用来约束视频中动作实例的边界结果， Lbce是二元交叉熵的损失函数， α 和β 是超参数。 2.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述通过时间信息提取模块获取时间信息的具体步骤如下：利用空间编码器对同一时间索引中提取的块之间建立关系，然后将所有的空间编码器输出的特征输入到对不同时间索引的帧建立联系的时间编码器中捕获全局信息，获取具有时间信息的多个时间尺度的特征式中Tn代表不同的时间尺度， C为特征的通道，权　利　要　求　书 1/3 页 2 CN 114998799 A 2具体公式如下：式中SpatialT代表的是空间编码器， TemporalT代表的是时间编码器， Linear代表的是全连接层， embedi ng是将时间加入空间特征并进行嵌入； 3.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述利用前景信息增强模块得到精细化特征，具体过程如下： 1)将粗边界和粗分类的结果输入到边界池化层， 2)将整个视频帧输入到前景信息增强模块，该模块将每个视频帧xi∈RH×W×C进行图像分块处理，将H×W×C的图片用P ×P大小的块将每一个视频帧分成D＝HW/P2个块；将D个块向量拼接得到一个二维特征矩阵并对特征序列进行位置嵌入得到帧级特征，实现过程为： Fframe＝Linear(FSA(xi))i＝1,…,T， (5) 式中FSA是前景信息注意编码器，在自注意力的基础上增加了下采样操作，采用1D线性插值实现下采样； 3)将Fframe与上下文信息提取模块输出的帧级特征进行融合，得到特征F ′frame作为边界池化的另一个输入，用于精细预测； 4)把粗预测过程中的特征和F，以及精细预测过程中的帧级特征F ′frame经过边界池化得到细粒度的特征和 5) 和分别经过两个不同的1D 卷积进行精细化预测，其中一个卷积被用来预测边界回归的偏移量和分别表示开始时间和结束时间的偏移，另一个卷积用来预测精细化的分类cR，最后将得到的偏移量加到粗边界获得精细化边界和分别表示精细化的开始和结束的时间； 4.根据权利要求1所述的基于全局知识挖掘和前景注意力的交互视频动作检测方法，其特征在于，所述粗分类中使用focal损失函数作为约束，调整正负样本的权重和控制困难和容易分类的样本，由于正负样本本身比例不均匀，并且负样本易分，因此我们引入一个参数γ，平衡比列并且调节为0.75，防止过拟合，具体公式如下：其中NC是粗略过程中正样本的数量，是粗粒度过程预测的粗分类结果， ci是真实标签。所述精细化分类中使用focal损失函数作为约束条件，具体公式如下：其中NR是当粗糙提议与真实样本的tIoU大于0.5时精化过程中正样本的数量，是预测的精化分类结果通过细化过程， ci是真实标签，权　利　要　求　书 2/3 页 3 CN 114998799 A 3

专利 基于全局知识挖掘和前景注意力的交互视频动作检测方法

专利基于全局知识挖掘和前景注意力的交互视频动作检测方法