专利基于视觉和语言语义自主优化对齐的视频描述方法及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210616243.2 (22)申请日 2022.05.31 (71)申请人井冈山大学地址 343009 江西省吉安市青原区学苑路 28号 (72)发明人汤鹏杰　谭云兰　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师翁惠瑜 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) (54)发明名称基于视觉和语言语义自主优化对齐的视频描述方法及介质 (57)摘要本发明涉及一种基于视觉和语言语义自主优化对齐的视频描述方法及介质，所述方法包括以下步骤：提取视觉特征和语言特征，在每个时间步上对所述视觉特征和语言特征进行对齐融合，获得多模态对齐特征；基于所述多模态对齐特征，通过一视频标题生成模型获得每个时间步上的词汇输出，获得视频描述结果；其中，所述视频标题生成模型包括基于因子分解方式的VL ‑ AOAu模块和基于非因子分解方式的VL ‑AOAf模块，基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出以及两个模块的融合输出进行序列加权融合，获得所述每个时间步上的词汇输出。与现有技术相比，本发明具有准确性高等优点。权利要求书1页说明书6页附图2页 CN 114880521 A 2022.08.09 CN 114880521 A 1.一种基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，包括以下步骤：提取视觉特征和语言特征，在每个时间步上对所述视觉特征和语言特征进行对齐融合，获得多模态对齐特征；基于所述多模态对齐特征，通过一视频标题生成模型获得每个时间步上的词汇输出，获得视频描述结果；其中，所述视频标题生成模型包括基于因子分解方式的VL ‑AOAu模块和基于非因子分解方式的VL ‑AOAf模块，基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出以及两个模块的融合输出进行序列加权融合，获得所述每个时间步上的词汇输出。 2.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述多模态对齐特征基于LSTM网络获得。 3.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述对齐融合具体为：采用串联、逐元素加法或逐元素乘法的方式将所述视觉特征和语言特征进行融合。 4.根据权利要求3所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述对齐融合过程中，以输入<pad> 方式进行填充对齐。 5.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述VL ‑AOAu模块和VL ‑AOAf模块均基于LSTM网络构建，其中，所述VL ‑AOAu模块以所述多模态对齐特征为输入，并在语言解码阶段与语言特征进行融合，所述VL ‑AOAf模块以所述多模态对齐特征为输入，并在解码阶段与视觉特征进行融合。 6.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，采用三通道目标函数联合优化的方式对所述视频标题生成模型进行优化训练，具体包括：为VL‑AOAu模块和VL ‑AOAf模块分别添加损失函数E1和E2；将VL‑AOAu模块和VL ‑AOAf模块的输出在每个时间步上进行优化融合，并为其添加新的损失函数E3；使用E1、 E2和E3三个损失函数对VL ‑AOAu模块和VL ‑AOAf模块两个模块进行联合优化。 7.根据权利要求6所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述损失函数采用基于交叉熵的目标函数。 8.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述两个模块的融合输出具体为：将所述VL ‑AOAu模块和VL ‑AOAf模块的输出采用特征串联、逐元素加法或逐元素乘法的方式进行融合。 9.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法，其特征在于，所述提取视觉特征通过预训练CNN模型提取并经维度约简获得，所述语言特征根据基于每个词汇编码得到的嵌入式特征向量获得。 10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1 ‑8任一所述视频标题生成方法的指令。权　利　要　求　书 1/1 页 2 CN 114880521 A 2基于视觉和语言语义自主优化对齐的视频描述方法及介质技术领域 [0001]本发明涉及视频标题生成领域，尤其是涉及一种基于视觉和语言语义自主优化对齐的视频描述方法及介质。背景技术 [0002]视频标题生成是使用自然语言/文本对视频中的视觉内容进行抽象、总结与表述。它首先需要提取视频中的视觉语义特征，然后将其翻译成符合人类表达习惯的描述语句，对视频中的物体、人物、动作、场景、事件等进行连贯的表达。它属于视觉高层理解范畴，要求模型不仅能够对视频的静态和动态信息进行较为准确地检测和表征，还要能够将各个视觉语义对象映射为语义标签，并将其按照语法格式重新排列组合，生成可读的视频描述句子。整个过程涉及计算机视觉、机器学习、自然语言处理等多个领域，数据变换和处理较为复杂。 [0003]目前，多数工作一般是将视觉特征编码和语言建模分为两个阶段，这一方面会造成视觉信息在后续的解码过程中逐渐弥散，致使句子的准确性受到一定的影响；另一方面视觉与语言的分离难以对其内部的语义关联进行建模，造成生成的句子在语义丰富程度上受到一定的限制。这种模型优化和测试过程忽视了视觉和语言语义的自主对齐及相互补充，生成的标题句子在用词的准确性和句子的整体语义性等方面都受到极大影响。发明内容 [0004]本发明的目的就是为了克服现有技术中存在的模型优化和测试过程中视觉和语言语义难以自主对齐及相互补充的弊端，而提供一种基于视觉和语言语义自主优化对齐的视频描述方法及介质，使得生成的标题句子在准确性和语义性等方面得到改善。 [0005]本发明的目的可以通过以下技术方案来实现： [0006]一种基于视觉和语言语义自主优化对齐的视频描述方法，包括以下步骤： [0007]提取视觉特征和语言特征，在每个时间步上对所述视觉特征和语言特征进行对齐融合，获得多模态对齐特征； [0008]基于所述多模态对齐特征，通过一视频标题生成模型获得每个时间步上的词汇输出，获得视频描述结果； [0009]其中，所述视频标题生成模型包括基于因子分解方式的VL ‑AOAu模块和基于非因子分解方式的VL ‑AOAf模块，基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出以及两个模块的融合输出进行序列加权融合，获得所述每个时间步上的词汇输出。 [0010]进一步地，所述多模态对齐特征基于LSTM网络获得。 [0011]进一步地，所述对齐融合具体为：采用串联、逐元素加法或逐元素乘法的方式将所述视觉特征和语言特征进行融合。 [0012]进一步地，所述对齐融合过程中，以输入<pad> 方式进行填充对齐。 [0013]进一步地，所述VL ‑AOAu模块和VL ‑AOAf模块均基于LSTM网络构建，其中，所述VL ‑说　明　书 1/6 页 3 CN 114880521 A 3

专利 基于视觉和语言语义自主优化对齐的视频描述方法及介质

专利基于视觉和语言语义自主优化对齐的视频描述方法及介质