说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210616243.2 (22)申请日 2022.05.31 (71)申请人 井冈山大 学 地址 343009 江西省吉安市青原区学 苑路 28号 (72)发明人 汤鹏杰 谭云兰  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 翁惠瑜 (51)Int.Cl. G06F 16/783(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06K 9/62(2022.01) (54)发明名称 基于视觉和语言语义自主优化对齐的视频 描述方法及 介质 (57)摘要 本发明涉及一种基于视觉和语言语义自主 优化对齐的视频描述方法及介质, 所述方法包括 以下步骤: 提取视觉特征和语言特征, 在每个时 间步上对所述视觉特征和语言特征进行对齐融 合, 获得多模态对齐特征; 基于所述多模态对齐 特征, 通过一视频标题生 成模型获得每个时间步 上的词汇输 出, 获得视频描 述结果; 其中, 所述视 频标题生成模型包括基于因子分解方式的VL ‑ AOAu模块和基于非因子分解方式的VL ‑AOAf模 块, 基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出 以及两个模块的融合输出进行序列加权融合, 获 得所述每个时间步上的词汇输出。 与现有技术相 比, 本发明具有准确性高等优点。 权利要求书1页 说明书6页 附图2页 CN 114880521 A 2022.08.09 CN 114880521 A 1.一种基于视觉和语言语义自主优化对齐的视频描述方法, 其特征在于, 包括以下步 骤: 提取视觉特征和语言特征, 在每个时间步上对所述视觉特征和语言特征进行对齐融 合, 获得多模态对齐特 征; 基于所述多模态对齐特征, 通过一视频标题生成模型获得每个时间步上的词汇输出, 获得视频描述结果; 其中, 所述视频标题生成模型包 括基于因子分解方式的VL ‑AOAu模块和基于非因子分解 方式的VL ‑AOAf模块, 基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出以及两个模块的融合输出 进行序列加权融合, 获得 所述每个时间步上的词汇输出。 2.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述多模态对齐特 征基于LSTM网络获得。 3.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述对齐融合具体为: 采用串联、 逐元素加法或逐元素乘法的方式将所述视觉特征和 语言特征进行融合。 4.根据权利要求3所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述对齐融合过程中, 以输入<pad> 方式进行填充对齐。 5.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述VL ‑AOAu模块和VL ‑AOAf模块均基于LSTM网络构建, 其中, 所述VL ‑AOAu模块以所述 多模态对齐特征为输入, 并在语言解码阶段与 语言特征进行融合, 所述VL ‑AOAf模块以所述 多模态对齐特 征为输入, 并在解码阶段与视 觉特征进行融合。 6.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 采用三通道目标函数联合优化的方式对所述视频标题生成模型进行优化训练, 具体 包括: 为VL‑AOAu模块和VL ‑AOAf模块分别添加损失函数E1和E2; 将VL‑AOAu模块和VL ‑AOAf模块的输出在每个时间步上进行优化融合, 并为其添加新的 损失函数E3; 使用E1、 E2和E3三个损失函数对VL ‑AOAu模块和VL ‑AOAf模块两个模块进行 联合优化。 7.根据权利要求6所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述损失函数采用基于交叉熵的目标函数。 8.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述两个模块的融合输出具体 为: 将所述VL ‑AOAu模块和VL ‑AOAf模块的输出采用特征 串联、 逐元素加法或逐 元素乘法的方式进行融合。 9.根据权利要求1所述的基于视觉和语言语义自主优化对齐的视频描述方法, 其特征 在于, 所述提取视觉特征通过预训练CNN模型提取并经维度约简获得, 所述语言特征根据基 于每个词汇编码得到的嵌入式特 征向量获得。 10.一种计算机可读存储介质, 其特征在于, 包括供电子设备的一个或多个处理器执行 的一个或多个程序, 所述一个或多个程序包括用于执行如权利要求1 ‑8任一所述视频标题 生成方法的指令 。权 利 要 求 书 1/1 页 2 CN 114880521 A 2基于视觉和语言语 义自主优化对齐的视频 描述方法及介质 技术领域 [0001]本发明涉及视频标题生成领域, 尤其是涉及一种基于视觉和语言语义自主优化对 齐的视频描述方法及 介质。 背景技术 [0002]视频标题生成是使用自然语言/文本对视频中的视觉内容进行抽象、 总结与表述。 它首先需要提取视频中的视觉语义特征, 然后将其翻译成符合人类表达习惯的描述语句, 对视频中的物体、 人物、 动作、 场景、 事件等进行连贯的表达。 它属于视觉高层理解范畴, 要 求模型不仅能够对视频的静态和 动态信息进 行较为准确地检测和表征, 还要能够将各个视 觉语义对 象映射为语义标签, 并将其按照语法格式重新排列 组合, 生成可读的视频描述句 子。 整个过程涉及计算机视觉、 机器学习、 自然语言处理等多个领域, 数据变换和处理较为 复杂。 [0003]目前, 多数工作一般是将视觉特征编码和语言建模分为两个阶段, 这一方面会造 成视觉信息在后续的解码过程中逐渐弥散, 致使句 子的准确 性受到一定的影响; 另一方面 视觉与语言的分离难以对其内部的语义关联进行建模, 造成生成的句子在语义丰富程度上 受到一定的限制。 这种模型优化和测试过程忽视了视觉和语言语义的自主对齐及相互补 充, 生成的标题句子在用词的准确性和句子的整体 语义性等方面都受到极大影响。 发明内容 [0004]本发明的目的就是为了克服现有技术中存在的模型优化和测试过程中视觉和语 言语义难以自主对齐及相互补充的弊端, 而提供一种基于视觉和语言语义自主优化对齐的 视频描述方法及 介质, 使得生成的标题句子在准确性和语义 性等方面得到改善 。 [0005]本发明的目的可以通过以下技 术方案来实现: [0006]一种基于 视觉和语言语义自主优化对齐的视频描述方法, 包括以下步骤: [0007]提取视觉特征和语言特征, 在每个时间步上对所述视觉特征和语言特征进行对齐 融合, 获得多模态对齐特 征; [0008]基于所述多模态对齐特征, 通过一视频标题生成模型获得每个时间步上的词汇输 出, 获得视频描述结果; [0009]其中, 所述视频标题生成模型包括基于因子分解方式的VL ‑AOAu模块和基于非因 子分解方式的VL ‑AOAf模块, 基于所述VL ‑AOAu模块和VL ‑AOAf模块的输出以及两个模块的融 合输出进行序列加权融合, 获得 所述每个时间步上的词汇输出。 [0010]进一步地, 所述多模态对齐特 征基于LSTM网络获得。 [0011]进一步地, 所述对齐融合具体为: 采用串联、 逐元素加法或逐元素乘法的方式将所 述视觉特征和语言特 征进行融合。 [0012]进一步地, 所述对齐融合过程中, 以输入<pad> 方式进行填充对齐。 [0013]进一步地, 所述VL ‑AOAu模块和VL ‑AOAf模块均基于LSTM网络构建, 其中, 所述VL ‑说 明 书 1/6 页 3 CN 114880521 A 3

.PDF文档 专利 基于视觉和语言语义自主优化对齐的视频描述方法及介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉和语言语义自主优化对齐的视频描述方法及介质 第 1 页 专利 基于视觉和语言语义自主优化对齐的视频描述方法及介质 第 2 页 专利 基于视觉和语言语义自主优化对齐的视频描述方法及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。