专利一种基于时空图的跨模态视频时刻定位方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111644165.9 (22)申请日 2021.12.3 0 (71)申请人湖南大学地址 410073 湖南省长沙市岳麓区麓山南路1号 (72)发明人李肯立　平申　田泽安　张忠阳　潘佳铭　姜骁　 (74)专利代理机构国防科技大学专利服务中心 43202 专利代理师刘芳 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种基于时空图的跨模态视频时刻定位方法及系统 (57)摘要本发明公开了一种基于时空图的跨模态视频时刻定位方法及系统，方法包括： S1、输入未剪辑视频和查询文本，对未剪辑视频采用多尺度滑动窗口截取视频片段候选集； S2、提取文本特征和视频片段特征，利用预训练的场景图生成模型对视频片段生成时空图表示； S3、将视频的时空图通过多层图卷积神经网络，获得的时空图特征与视频片段特征拼接，得到富含时空语义信息的视频特征； S4、将含有时空信息的视频特征与文本特征通过全连接层投影到同一特征空间，进行拼接后获得视频文本模态融合特征； S5、将视频文本模态融合特征输入多层感知机网络，获得文本视频匹配分数和位置偏移向量。本发明可以细粒度地理解视频语义信息，返回更加精确的视频定位边界。权利要求书2页说明书6页附图4页 CN 114627402 A 2022.06.14 CN 114627402 A 1.一种基于时空图的跨模态视频时刻定位方法，其特征在于，包括以下步骤： S1、输入未剪辑视频和查询文本，对所述未剪辑视频采用多尺度滑动窗口截取视频片段候选集； S2、提取文本特征eq和视频片段特征ec，利用预训练的场景图生成模型对视频片段生成时空图表示； S3、将视频的时空图通过多层图卷积神经网络，获得的时空图特征与视频片段特征拼接，得到富含时空语义信息的视频特征vst； S4、将含有时空信息的视频特征vst与文本特征eq通过全连接层投影到同一特征空间，进行拼接后获得视频文本模态融合特征fcq； S5、将视频文本模态融合特征fcq输入多层感知机网络，获得文本视频匹配分数和位置偏移向量。 2.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S2包括以下步骤： S20、利用文本编码器在所述查询文本中提取文本特征eq； S21、利用预训练的卷积神经网络在所述视频片段候选集中提取视频片段特征ec； S22、对候选集中每个候选片段的帧利用预训练的场景图生成模型提取用于描述每一帧内物体之间交互的空间图； S23、根据相邻帧物体特征之间的相似性构建时间图，并在时间域上对物体依赖关系进行建模。 3.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S22具体包括：场景图生成模型判断候选片段中每帧的物体i和物体j是否存在关系，若存在则令物体 i到物体j的有向边为设定值，得到空间图邻接矩阵Aspa；对候选片段中的每一帧，构建表示物体空间关系的有向图，场景图生成模型检测的物体特征作为节点特征X∈RN×d，其中， N表示视频片段中物体总数， d表示物体特征维度；获得邻接矩阵Aspa后，将邻接矩阵每行归一化，确保每个物体连接的边和等于设定值。 4.根据权利要求3所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述归一化的公式为：其中N表示视频片段中物体总数， Aspa表示空间图的邻接矩阵。 5.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S23具体包括：对于帧t 中的物体i，计算其和帧t+1中物体j之间的余弦相似度，如果二者之间相似度大于给定阈值，则认为二者是同一物体，令物体i到物体j的有向边为设定值，得到时间图邻接矩阵Atem。 6.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S3具体包括以下步骤： S30、将空间图和时间图输入至多层图卷积神经网络，对每一层图卷积神经网络，将空间图和时间图的图卷积输出结果直接相加： Z＝RELU(AspaXWspa+AtemXWtem)，其中， Wspa和Wtem是权　利　要　求　书 1/2 页 2 CN 114627402 A 2权重矩阵， X是节点特征矩阵， Z是单层图卷积网络输出结果， Aspa、 Atem分别是空间图和时间图邻接矩阵，经过k层图卷积后，获得时空图特征gst＝avg_pool(max_pool(Z1， Z2，，， Zk))，其中， max_po ol、 avg_po ol分别表示最大池化和平均池化操作； S31、将时空图特征与视频片段特征拼接得到具有时空语义信息的视频特征。 7.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S4中的投影公式为： vst_p＝RELU(Wvvst+bv)， eq_p＝RELU(Wseq+bs) 其中， Wv、 Ws表示权重矩阵， bv、 bs表示偏置向量。 8.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S5中视频文本模态融合特征fcq输入多层感知机网络的公式为：其中， Wl、 bl、 ol分别是第l层全连接网络权重矩阵、偏置向量和输出向量， oL＝[scq， δs， δe]，其中scq表示匹配分数， δs、 δe表示定位偏移。 9.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法，其特征在于，所述步骤S5中通过以下公式计算损失函数L对所述网络模型进行训练，在测试阶段选取匹配分数最高的候选片段，将候选片段时间边界加上回归偏移量，得到视频时刻定位边界； L＝Lalign+λLreg； Lalign＝∑(c， q)∈Pλ1log(1+exp( ‑scq))+∑(c， q)∈Nλ2log(1+exp(scq))；式中， λ、 λ1、 λ2为权重系数， P为文本视频相匹配的正样本集， N为负样本集， Lalign为文本视频对齐损失函数， Lreg为位置偏移回归损失函数，为真实偏移量。 10.根据权利要求1 ‑9任意一项所述的基于时空图的跨模态视频时刻定位方法的系统，其特征在于，包括：多尺度滑动窗口截取模块，用于在输入未剪辑视频和查询文本后，对所述未剪辑视频采用多尺度滑动窗口截取视频片段候选集；提取训练模块，用于提取文本特征eq和视频片段特征ec，利用预训练的场景图生成模型对视频片段生成时空图表示；多层图卷积神经网络模块，用于将视频的时空图通过多层图卷积神经网络，获得的时空图特征与视频片段特征拼接，得到富含时空语义信息的视频特征vst；投影模块，用于将含有时空信息的视频特征vst与文本特征eq通过全连接层投影到同一特征空间，进行拼接后获得视频文本模态融合特征fcq；多层感知机网络模块，用于将视频文本模态融合特征fcq输入多层感知机网络，获得文本视频匹配分数和位置偏移向量。权　利　要　求　书 2/2 页 3 CN 114627402 A 3

专利 一种基于时空图的跨模态视频时刻定位方法及系统

专利一种基于时空图的跨模态视频时刻定位方法及系统