说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210510047.7 (22)申请日 2022.05.11 (71)申请人 湖南大学 地址 410082 湖南省长 沙市岳麓区麓山 南 路1号 (72)发明人 李树涛 李宾 孙斌 郭虎  (74)专利代理 机构 湖南兆弘专利事务所(普通 合伙) 43008 专利代理师 谭武艺 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/732(2019.01) G06F 16/9032(2019.01) G06V 20/40(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06F 40/205(2020.01) G06V 10/80(2022.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 基于跨模态提示学习的视频问答方法与系 统 (57)摘要 本发明公开了一种基于跨模态提示学习的 视频问答方法与系统, 本发明方法包括: 针对示 教视频提取视觉特征和文本特征, 利用上下文查 询注意力得到对应的跨模态输出特征; 根据输出 特征, 利用视频答案区间高亮模块获取视频答案 区间高亮特征并作为预训练的语言模型的视觉 提示, 通过预训练的语言模型基于文本问题、 字 幕以及视觉提示预测字幕跨度。 本发 明以高效准 确从给定的未剪辑的示教视频中找到问题匹配 的视频答案时间段区间, 以视频答案时间段区间 从语义上回答指定的文本问题 为目标, 利用视频 答案区间高亮模块增强了预训练语言模型中的 文本跨度定位, 能显著提高视频分类和视频问答 的准确率和效率, 且适用于各类视频的分类与视 频问答任务。 权利要求书3页 说明书12页 附图5页 CN 114996513 A 2022.09.02 CN 114996513 A 1.一种基于跨模态提 示学习的视频问答方法, 其特 征在于包括: 1)针对被定位的示教视频提取视觉特征V; 针对被定位的示教视频的文本问题提取文 本特征Q; 2)根据视觉特征V以及文本特征Q, 利用上下文查询注意力得到对应的上下文查询注意 输出特征 3)将被定位的示教视频分为视频答案区间高亮部分和扩展部分, 通过预设的视频答案 区间高亮模块根据上下文查询注意输出特征 以及文本特征Q中的单词特征, 计算视频答 案区间高亮部分的特 征Sh, 并对特征Sh进行线性处 理得到视频答案区间高亮特 征S'h; 4)采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示以使文本特征可 捕捉到视觉信息, 将视 觉提示嵌入所述预训练的语言模型; 5)通过所述预训练的语言模型基于文本问题、 字幕以及视 觉提示预测字幕跨度。 2.根据权利要求1所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤1)中 提取视觉特征V包括: 将 被定位的示教视频的以统一的时间间隔提取出原始帧, 对原始帧提 取特征后依次通过图像三维卷积网络I3D, 再经过视觉投影得到视觉特征V; 步骤1)中提取 文本特征Q包括: 将被定位的示教视频的文本问题输入预训练语言模型PLM, 再经过文本投 影得到文本特 征Q。 3.根据权利要求1所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤2)中 利用上下文查询注意力得到对应的上 下文查询注意输出 特征 的函数表达式为: 上式中, 表示利用上下文查询注意力得到对应的上下文查询注意输出特征, FFN表示 将输入量通过线性函数进 行线性变换, V表 示视觉特征, ⊙表示按元素的乘法, A表示上下文 到查询过程, B表示 查询到上 下文过程, 且有: A=Sr·Q, B=Sr·ScT·V, 上式中, Sr和Sc分别为SoftMax函数对可学习的矩阵S的行和列标准化后的矩阵, 矩阵Sr 的维度和矩阵Sc的维度均为n*m, T表示矩阵的转置, 文本特征Q的维度为m*d, 视觉特征V的 维度为n*d, 且有A∈Rn×d, B∈Rn×d, Rn×d表示维度, n表示视频时间, d表示神经元数, m表示特 征的个数。 4.根据权利要求1所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤3)包 括: 3.1)将被定位的示教视频包含字幕的部分的事实作为视频答案区间高亮部分, 根据下 式计算视频答案区间高亮部分的时间THighlight: THighlight=te‑ts 上式中, THighlight表示视频答案区间高亮部分的时间, te是包含字幕的部分的事实 的结 束时间, ts是包含字幕的部分的事实的开始时间; 并将被定位的示教视频的非语言帧扩展 为扩展部分, 并根据下式计算出扩展部分的扩展时间Textend: Textend=THighlight*(1+α ) 上式中, α 为超参数; 3.2)通过预设的视频答案区间高亮模块将用自注意力 机制将文本特征Q中的单词特征权 利 要 求 书 1/3 页 2 CN 114996513 A 2编码为句子表征hQ, 将句子表征hQ分别与上下文查询注意输出特征 的n个特征 级联连接得到级联特征 将级联特征 依次通过一维卷积网络Conv1D 以及激活函数层得到各个视频答案区间高亮部分的特征Sh, 并对Sh进行线性处理得到视频 答案区间高亮特 征S'h; 且视频答案区间高亮 模块训练时所采用的损失函数为: Lhighlight=fBCE(S'h,Textend) 上式中, Lhighlight为视频答案区间高亮模块训练时所采用的损失函数, fBCE表示二值交 叉熵损失函数。 5.根据权利要求1所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤4)包 括: 采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示, 将文本问题、 字幕 构成的文本特征和视频答案区间高亮特征S'h构成的视觉提示一起构建输入令牌; 将所述 输入令牌采用嵌入模块在同一个向量空间中学习特征, 从而得到用于预训练的语言模型的 输入特征序列。 6.根据权利要求5所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤5)包 括: 5.1)将输入特征序列通过所述预训练的语言模型获得 隐藏表示h, 所述预训练的语言 模型为DeBERTa网络, 获得隐藏表示h的函数表达式为: 上式中, DeBERTa(x)表示输入特征序列x通过DeBERTa网络得到的结果, 表示维 度, rh表示隐藏维度的大小, |x|表示输入特 征序列x的长度; 5.2)将隐藏表示h分别通过两个 单独的密集层并通过softmax激活函数得到特征l1和特 征l2, 两个单独的密集层的函数表达式为: l1=softmax(W1·h+b1) l2=softmax(W2·h+b2) 上式中, softmax表示softmax激活函数, softmax激活函数沿序列的维度应用, 权重 偏置值b1,b2∈R, R表示实数; 5.3)根据下式计算得到文本问题的字幕跨度[s,e]并输出; 上式中, s表示文本问题 的字幕跨度的起始位置, e表示文本问题 的字幕跨度的结束位 置。 7.根据权利要求1所述的基于跨模态提示学习的视频问答方法, 其特征在于, 步骤1)之 前还包括识别示教视频的步骤: S1)针对被识别的视频及其对应的视频标题和字幕, 通过预先完成训练的目标分类模 型, 确定视频的类型为目标视频还是非目标视频, 如果是目标视频, 则跳转下一步; 否则, 结 束并退出; S2)针对被识别的目标视频及其对应的视频标题和字幕, 通过预先完成训练的示教分 类模型, 确定目标视频的类型为示教视频还是非示教视频, 如果是示教视频, 则跳转步骤权 利 要 求 书 2/3 页 3 CN 114996513 A 3

.PDF文档 专利 基于跨模态提示学习的视频问答方法与系统

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态提示学习的视频问答方法与系统 第 1 页 专利 基于跨模态提示学习的视频问答方法与系统 第 2 页 专利 基于跨模态提示学习的视频问答方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。