说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111678887.6 (22)申请日 2021.12.31 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 徐亦飞 桑维光 罗海伦 李斌  徐武将 朱利  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 代理人 李鹏威 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/08(2006.01) (54)发明名称 一种视频场景检测标注方法及系统 (57)摘要 本发明公开了一种视频场景检测标注方法 及系统, 根据输入视频、 音频和文本嵌入的模态 信息源, 采用预训练模型获取视频、 音频和文本 的模态特征, 将获取的视频、 音频和文本的模态 特征进行对齐和融合形成窗口基本跨模态表示, 根据多时相注 意和相邻窗口之间的差异, 将窗口 基本跨模态表 示演化为自适应上下文感知表示, 根据获取的自适应上下文感知表示对场景进行 检测, 通过窗口属性分类器确定窗口的属性, 通 过位置偏移回归器在该窗口中获取场景边界的 准确位置; 基于获取的场景边界, 为每个场景指 定多个标签实现场景标注, 将场景检测归结为窗 口属性分类和位置偏移回归, 并通过两级分类器 的集成学习解决多标签标注问题。 通过跨模态线 索的统一网络解决错误传播和巨大计算成本问 题; 将场景检测归结为窗口属性 分类和位置偏移 回归, 并通过两级分类器的集 成学习解决多 标签 标注问题。 权利要求书2页 说明书6页 附图3页 CN 114332729 A 2022.04.12 CN 114332729 A 1.一种视频场景检测标注方法, 其特 征在于, 包括以下步骤: S1, 根据输入视频、 音频和文本嵌入的模态信息源, 采用预训练模型获取视频、 音频和 文本的模态特 征; S2, 将获取的视频、 音频和文本的模态特 征进行对齐和融合形成窗口基本跨模态 表示; S3, 根据多时相注意和相邻窗口之间的差异, 将窗口基本跨模态表示演化为自适应上 下文感知表示; S4, 根据获取的自适应上下文感知表示对场景进行检测, 通过窗口属性分类器确定窗 口的属性, 通过位置偏移 回归器在该窗口中获取场景边界的准确 位置; 基于获取 的场景边 界, 为每个场景指定多个标签实现场景 标注。 2.根据权利要求1所述的一种视频场景检测标注方法, 其特征在于, 根据视频的模态信 息源, 利用Sw in Transformer生成h *L×Cv维度的视 觉特征Fvisual。 3.根据权利要求1所述的一种视频场景检测标注方法, 其特征在于, 根据视频的模态信 息源, 利用VGGish网络将音频录音编码为L ×Ca维向量形成音频特征Faudio, 利用BERT   Network以提供512 ×Ct通道, 获取文本嵌入的文本嵌入特 征Ftext。 4.根据权利要求1所述的一种视频场景检测标注方法, 其特征在于, 将视频和音频的模 态特征通过连续Layer Norm+Conv1D层的相邻分支进行编码和连接, 获得视频 ‑音频特征, 将 通道注意力与视频 ‑音频特征相结合, 采用多头注意力机制强制视觉信息、 音频和文本在语 义上明确对齐。 5.根据权利要求4所述的一种视频场景检测标注方法, 其特征在于, 将Fva嵌入查询矩阵 Qi=FvaWiq, 构造键矩阵Ki=FtextWik和值矩阵Vi=FtextWiv, 然后, 对齐文本嵌入计算如下: headi=Attention(Qi, Wi, Vi) Fatext=Concat(head1, head2, ...headr)Wo 其中投影是参数矩阵Wiq∈R2C×2C/r, Wik, Wo∈R2C×2C, dk表示比例因子; r 为16, U∈RL×512是一个可以学习的先验矩阵, 用于学习将文本与视觉和音频信息对其的规 则; 是通过总结 Fatext和Fva, 其中 表示窗口wi的WBCR。 6.根据权利要求1所述的一种视频场景检测标注方法, 其特征在于, 利用不同视图窗 口、 多尺度扩展注意模块和移位窗口顺序模块之间的长时间依赖性, 将窗口基本跨模态表 示演化为自适应上 下文感知表示。 7.根据权利要求6所述的一种视频场景检测标注方法, 其特征在于, 多尺度扩展注意模 块包括多尺度扩展窗口和上下文感知注意模块, 采用多尺度扩展窗口操作来为所有窗口建 立时间依赖 关系, 当所有的上下文表示 都被构建完成后, 它们被输入到线性层, 产生一个2C 维度的特 征向量。 8.根据权利要求7所述的一种视频场景检测标注方法, 其特征在于, 采用零填充窗口来 填充特征, 以使输入和输出 大小一致。 9.根据权利要求6所述的一种视频场景检测标注方法, 其特征在于, 移位 窗口顺序模块 通过从前一个窗口的WBCR减去该窗口WBCR来计算该窗口移位WBCR, 采用顺序转导网络捕获权 利 要 求 书 1/2 页 2 CN 114332729 A 2时间序列, 然后进行线性 运算, 以获得SWSM(Fsw)的输出。 10.一种基于权利要求1所述的方法的一种视频场景检测标注系统, 其特征在于, 包括 特征采集模块, 特 征融合模块和检测标注模块; 特征采集模块用于根据输入视频、 音频和文本嵌入的模态信息源, 基于预训练模型获 取视频、 音频和文本的模态特 征; 特征融合模块用于将 获取的视频、 音频和文本的模态特征进行对齐和融合形成窗口基 本跨模态表示, 并根据多时相注意和相邻窗口之间的差异, 将窗口基本跨模态表示演化为 自适应上 下文感知表示; 检测标注模块根据获取的自适应上下文感知表示对场景进行检测, 通过窗口属性分类 器确定窗口的属 性, 通过位置偏移 回归器在该窗口中获取场景边界的准确 位置; 基于获取 的场景边界, 为每 个场景指定多个标签实现场景 标注。权 利 要 求 书 2/2 页 3 CN 114332729 A 3

.PDF文档 专利 一种视频场景检测标注方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种视频场景检测标注方法及系统 第 1 页 专利 一种视频场景检测标注方法及系统 第 2 页 专利 一种视频场景检测标注方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:19:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。