说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111644165.9 (22)申请日 2021.12.3 0 (71)申请人 湖南大学 地址 410073 湖南省长 沙市岳麓区麓山 南 路1号 (72)发明人 李肯立 平申 田泽安 张忠阳  潘佳铭 姜骁  (74)专利代理 机构 国防科技大 学专利服 务中心 43202 专利代理师 刘芳 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种基于时空图的跨模态视频时刻定位方 法及系统 (57)摘要 本发明公开了一种基于时空图的跨模态视 频时刻定位方法及系统, 方法包括: S1、 输入未剪 辑视频和查询文本, 对未剪辑视频采用多尺度滑 动窗口截取视频片段候选集; S2、 提取文本特征 和视频片段特征, 利用预训练的场景图生成模型 对视频片段生成时空图表示; S3、 将视频的时空 图通过多层图卷积神经网络, 获得的时空图特征 与视频片段特征拼接, 得到富含时空语义信息的 视频特征; S4、 将含有时空信息的视频特征与文 本特征通过全 连接层投影到同一特征空间, 进行 拼接后获得视频文本模态融合特征; S5、 将视频 文本模态融合特征输入多层感知机网络, 获得文 本视频匹配分数和位置偏移向量。 本发明可以细 粒度地理解视频语义信息, 返回更加精确的视频 定位边界。 权利要求书2页 说明书6页 附图4页 CN 114627402 A 2022.06.14 CN 114627402 A 1.一种基于时空图的跨模态视频时刻定位方法, 其特 征在于, 包括以下步骤: S1、 输入未剪辑视频和查询文本, 对所述未剪辑视频采用多尺度滑动窗口截取视频片 段候选集; S2、 提取文本特征eq和视频片段特征ec, 利用预训练的场景图生成模型对视频片段生 成时空图表示; S3、 将视频的时空图通过多层图卷积神经网络, 获得的时空图特征与视频片段特征拼 接, 得到富含时空语义信息的视频 特征vst; S4、 将含有时空信息的视频特征vst与文本特征eq通过全连接层投影到同一特征空间, 进行拼接后获得视频文本模态融合特 征fcq; S5、 将视频文本模态融合特征fcq输入多层感知机网络, 获得文本视频匹配分数和位置 偏移向量。 2.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S2包括以下步骤: S20、 利用文本编码器在所述 查询文本中提取文本特 征eq; S21、 利用预训练的卷积神经网络在所述视频片段候选集中提取视频片段 特征ec; S22、 对候选集中每个候选片段的帧利用预训练的场景图生成模型提取用于描述每一 帧内物体之间交 互的空间图; S23、 根据相邻帧物体特征之间的相似性构建时间图, 并在时间域上对物体依赖关系进 行建模。 3.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S22具体包括: 场景图生成模型判断候选片段中每帧的物体i和物体j是否存在 关系, 若存在则 令物体 i到物体j的有向边 为设定值, 得到空间图邻接矩阵Aspa; 对候选片段中的每一帧, 构建表示物体空间关系的有向图, 场景图生成模型检测的物 体特征作为节点特 征X∈RN×d, 其中, N表示视频片段中物体总数, d表示物体特 征维度; 获得邻接矩阵Aspa后, 将邻接矩阵每行归一 化, 确保每 个物体连接的边和等于设定值。 4.根据权利要求3所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述归 一化的公式为: 其中N表示视频片段中物体总数, Aspa表示空间图的邻接矩 阵。 5.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S23具体包括: 对于帧t 中的物体i, 计算其和帧t+1中物体j之间的余弦相似度, 如果二者 之间相似度大于给定阈值, 则认 为二者是同一物体, 令物体i到物体j的有向边为设定值, 得 到时间图邻接矩阵Atem。 6.根据权利要求2所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S3具体包括以下步骤: S30、 将空间图和时间图输入至多层图卷积神经网络, 对每一层图卷积神经网络, 将空 间图和时间图的 图卷积输出结果直接相加: Z=RELU(AspaXWspa+AtemXWtem), 其中, Wspa和Wtem是权 利 要 求 书 1/2 页 2 CN 114627402 A 2权重矩阵, X是节点特征矩阵, Z是单层图卷积网络输出结果, Aspa、 Atem分别是空间图和时间 图邻接矩阵, 经过k层图卷积后, 获得时空图特征gst=avg_pool(max_pool(Z1, Z2, , , Zk)), 其中, max_po ol、 avg_po ol分别表示 最大池化和平均池化操作; S31、 将时空图特 征与视频片段 特征拼接得到具有时空语义信息的视频 特征。 7.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S4中的投影公式为: vst_p=RELU(Wvvst+bv), eq_p=RELU(Wseq+bs) 其中, Wv、 Ws表示权重矩阵, bv、 bs表示偏置向量。 8.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S5中视频文本模态融合特 征fcq输入多层感知机网络的公式为: 其中, Wl、 bl、 ol分别是第l层全连接网络权重矩阵、 偏置向量和输出向量, oL=[scq, δs, δe], 其中scq表示匹配分数, δs、 δe表示定位偏移。 9.根据权利要求1所述的基于时空图的跨模态视频时刻定位方法, 其特征在于, 所述步 骤S5中通过以下公式计算损失函数L对所述网络模型进行训练, 在测试阶段选取匹配分数 最高的候选片段, 将候选片段时间边界加上回归偏移量, 得到 视频时刻定位 边界; L=Lalign+λLreg; Lalign=∑(c, q)∈Pλ1log(1+exp( ‑scq))+∑(c, q)∈Nλ2log(1+exp(scq)); 式中, λ、 λ1、 λ2为权重系数, P为文本视频相匹配的正样本集, N为负样本集, Lalign为文本 视频对齐损失函数, Lreg为位置偏移回归损失函数, 为真实偏移量。 10.根据权利要求1 ‑9任意一项所述的基于时空图的跨模态视频时刻定位方法的系统, 其特征在于, 包括: 多尺度滑动窗口截取模块, 用于在输入未剪辑视频和查询文本后, 对所述未剪辑视频 采用多尺度滑动窗口截取视频片段候选集; 提取训练模块, 用于提取文本特征eq和视频片段特征ec, 利用预训练的场景图生成模 型对视频片段生成时空图表示; 多层图卷积神经网络模块, 用于将视频的时空图通过多层图卷积神经网络, 获得的时 空图特征与视频片段 特征拼接, 得到富含时空语义信息的视频 特征vst; 投影模块, 用于将含有时空信息的视频特征vst与文本特征eq通过全连接层投影到 同 一特征空间, 进行拼接后获得视频文本模态融合特 征fcq; 多层感知机网络模块, 用于将视频文本模态融合特征fcq输入多层感知机网络, 获得文 本视频匹配分数和位置偏移向量。权 利 要 求 书 2/2 页 3 CN 114627402 A 3

.PDF文档 专利 一种基于时空图的跨模态视频时刻定位方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于时空图的跨模态视频时刻定位方法及系统 第 1 页 专利 一种基于时空图的跨模态视频时刻定位方法及系统 第 2 页 专利 一种基于时空图的跨模态视频时刻定位方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:54:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。