专利基于跨模态提示学习的视频问答方法与系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210510047.7 (22)申请日 2022.05.11 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路1号 (72)发明人李树涛　李宾　孙斌　郭虎　 (74)专利代理机构湖南兆弘专利事务所(普通合伙) 43008 专利代理师谭武艺 (51)Int.Cl. G06F 16/783(2019.01) G06F 16/78(2019.01) G06F 16/732(2019.01) G06F 16/9032(2019.01) G06V 20/40(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06F 40/205(2020.01) G06V 10/80(2022.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称基于跨模态提示学习的视频问答方法与系统 (57)摘要本发明公开了一种基于跨模态提示学习的视频问答方法与系统，本发明方法包括：针对示教视频提取视觉特征和文本特征，利用上下文查询注意力得到对应的跨模态输出特征；根据输出特征，利用视频答案区间高亮模块获取视频答案区间高亮特征并作为预训练的语言模型的视觉提示，通过预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。本发明以高效准确从给定的未剪辑的示教视频中找到问题匹配的视频答案时间段区间，以视频答案时间段区间从语义上回答指定的文本问题为目标，利用视频答案区间高亮模块增强了预训练语言模型中的文本跨度定位，能显著提高视频分类和视频问答的准确率和效率，且适用于各类视频的分类与视频问答任务。权利要求书3页说明书12页附图5页 CN 114996513 A 2022.09.02 CN 114996513 A 1.一种基于跨模态提示学习的视频问答方法，其特征在于包括： 1)针对被定位的示教视频提取视觉特征V；针对被定位的示教视频的文本问题提取文本特征Q； 2)根据视觉特征V以及文本特征Q，利用上下文查询注意力得到对应的上下文查询注意输出特征 3)将被定位的示教视频分为视频答案区间高亮部分和扩展部分，通过预设的视频答案区间高亮模块根据上下文查询注意输出特征以及文本特征Q中的单词特征，计算视频答案区间高亮部分的特征Sh，并对特征Sh进行线性处理得到视频答案区间高亮特征S'h； 4)采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示以使文本特征可捕捉到视觉信息，将视觉提示嵌入所述预训练的语言模型； 5)通过所述预训练的语言模型基于文本问题、字幕以及视觉提示预测字幕跨度。 2.根据权利要求1所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤1)中提取视觉特征V包括：将被定位的示教视频的以统一的时间间隔提取出原始帧，对原始帧提取特征后依次通过图像三维卷积网络I3D，再经过视觉投影得到视觉特征V；步骤1)中提取文本特征Q包括：将被定位的示教视频的文本问题输入预训练语言模型PLM，再经过文本投影得到文本特征Q。 3.根据权利要求1所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤2)中利用上下文查询注意力得到对应的上下文查询注意输出特征的函数表达式为：上式中，表示利用上下文查询注意力得到对应的上下文查询注意输出特征， FFN表示将输入量通过线性函数进行线性变换， V表示视觉特征， ⊙表示按元素的乘法， A表示上下文到查询过程， B表示查询到上下文过程，且有： A＝Sr·Q， B＝Sr·ScT·V，上式中， Sr和Sc分别为SoftMax函数对可学习的矩阵S的行和列标准化后的矩阵，矩阵Sr 的维度和矩阵Sc的维度均为n*m， T表示矩阵的转置，文本特征Q的维度为m*d，视觉特征V的维度为n*d，且有A∈Rn×d， B∈Rn×d， Rn×d表示维度， n表示视频时间， d表示神经元数， m表示特征的个数。 4.根据权利要求1所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤3)包括： 3.1)将被定位的示教视频包含字幕的部分的事实作为视频答案区间高亮部分，根据下式计算视频答案区间高亮部分的时间THighlight： THighlight＝te‑ts 上式中， THighlight表示视频答案区间高亮部分的时间， te是包含字幕的部分的事实的结束时间， ts是包含字幕的部分的事实的开始时间；并将被定位的示教视频的非语言帧扩展为扩展部分，并根据下式计算出扩展部分的扩展时间Textend： Textend＝THighlight*(1+α ) 上式中， α 为超参数； 3.2)通过预设的视频答案区间高亮模块将用自注意力机制将文本特征Q中的单词特征权　利　要　求　书 1/3 页 2 CN 114996513 A 2编码为句子表征hQ，将句子表征hQ分别与上下文查询注意输出特征的n个特征级联连接得到级联特征将级联特征依次通过一维卷积网络Conv1D 以及激活函数层得到各个视频答案区间高亮部分的特征Sh，并对Sh进行线性处理得到视频答案区间高亮特征S'h；且视频答案区间高亮模块训练时所采用的损失函数为： Lhighlight＝fBCE(S'h,Textend) 上式中， Lhighlight为视频答案区间高亮模块训练时所采用的损失函数， fBCE表示二值交叉熵损失函数。 5.根据权利要求1所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤4)包括：采用视频答案区间高亮特征S'h作为预训练的语言模型的视觉提示，将文本问题、字幕构成的文本特征和视频答案区间高亮特征S'h构成的视觉提示一起构建输入令牌；将所述输入令牌采用嵌入模块在同一个向量空间中学习特征，从而得到用于预训练的语言模型的输入特征序列。 6.根据权利要求5所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤5)包括： 5.1)将输入特征序列通过所述预训练的语言模型获得隐藏表示h，所述预训练的语言模型为DeBERTa网络，获得隐藏表示h的函数表达式为：上式中， DeBERTa(x)表示输入特征序列x通过DeBERTa网络得到的结果，表示维度， rh表示隐藏维度的大小， |x|表示输入特征序列x的长度； 5.2)将隐藏表示h分别通过两个单独的密集层并通过softmax激活函数得到特征l1和特征l2，两个单独的密集层的函数表达式为： l1＝softmax(W1·h+b1) l2＝softmax(W2·h+b2) 上式中， softmax表示softmax激活函数， softmax激活函数沿序列的维度应用，权重偏置值b1,b2∈R， R表示实数； 5.3)根据下式计算得到文本问题的字幕跨度[s,e]并输出；上式中， s表示文本问题的字幕跨度的起始位置， e表示文本问题的字幕跨度的结束位置。 7.根据权利要求1所述的基于跨模态提示学习的视频问答方法，其特征在于，步骤1)之前还包括识别示教视频的步骤： S1)针对被识别的视频及其对应的视频标题和字幕，通过预先完成训练的目标分类模型，确定视频的类型为目标视频还是非目标视频，如果是目标视频，则跳转下一步；否则，结束并退出； S2)针对被识别的目标视频及其对应的视频标题和字幕，通过预先完成训练的示教分类模型，确定目标视频的类型为示教视频还是非示教视频，如果是示教视频，则跳转步骤权　利　要　求　书 2/3 页 3 CN 114996513 A 3

专利 基于跨模态提示学习的视频问答方法与系统

专利基于跨模态提示学习的视频问答方法与系统