说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210389983.7 (22)申请日 2022.04.14 (71)申请人 华侨大学 地址 362000 福建省泉州市丰泽区城东城 华北路269号 (72)发明人 曾焕强 王欣唯 朱建清 陈婧  黄德天 温廷羲 郭荣新  (74)专利代理 机构 厦门市首创君 合专利事务所 有限公司 3 5204 专利代理师 连耀忠 (51)Int.Cl. G06F 16/908(2019.01) G06F 16/906(2019.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称 一种基于模态关系学习的跨模态检索方法 (57)摘要 本发明提出一种基于模态关系学习的跨模 态检索方法, 将数据集中相同语义的图像文本对 以及所属的类标签输入到基于模态关系学习的 跨模态检索网络模型中训练, 直至模型收敛, 从 而获得网络模型M; 利用S1中训练得到网络模型M 分别提取待查询图像/文本和候选库中每个文 本/图像的特征向量, 从而计算待查询图像文本 与候选库中文本/图像的相似度, 根据相似度的 大小进行降序排序, 并返回相似度最高的检索结 果; 建立模态间和模态内的双重融合机制进行模 态间关系学习, 不仅在模态内融合多尺度的特 征, 还在模态间使用标签的关系信息直接对融合 特征进行互补性关系学习, 另外, 加入模态间的 注意力机制进行特征联合 嵌入, 进一步的提高了 跨模态的检索性能。 权利要求书3页 说明书7页 附图1页 CN 114817673 A 2022.07.29 CN 114817673 A 1.一种基于模态关系学习的跨模态检索方法, 其特征在于, 包括训练过程和检索过程, 步骤如下: 训练过程S 1: 将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关 系学习的跨模态检索网络模型中训练, 直至模型收敛, 从而获得网络模型M; 检索过程S2: 利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个 文本/图像的特征向量, 从而计算待查询图像文本与候选库中文本/图像的相似度, 根据相 似度的大小 进行降序排序, 并返回相似度最高的检索结果。 2.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 训练 过程S1的步骤如下: 步骤S11): 将不同类别的图像数据vi输入到图像模态特 征提取网络中提取图像特 征; 步骤S12): 将与图像数据vi对应的文本数据ti输入到文本模态特征提取网络中提取文 本数据的特 征; 步骤S13): 将提取的图像特征和文本特征分别输入到带有空洞卷积的空间金字塔池化 块和多尺度文本特 征块中提取多尺度图像特 征ui、 多尺度文本特 征si; 步骤S14): 将多尺度图像特征ui、 多尺度文本特征si输入到带有跨模态联合注意力机制 的融合模块中, 注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特 征向量I和文本特 征向量T, 经成对融合后生成融合特 征向量F; 步骤S15): 将融合特征向量F与标签信息进行关系学习, 采用误差反向传播算法优化与 真实标签关系的损失, 得到 收敛的基于注意力机制的两个模态上 的网络, 再更新注意力机 制中的共同语义特征图P, 得到更新后的共同语义特征图P', 用更新后的共同语义特征图P' 指导更新 跨模态检索网络, 进行迭代, 获得基于模态关系学习的跨模态检索模型M 。 3.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 所述 图像特征提取网络由16个卷积层、 4个池化层、 1个全连接层组成, 其中全连接层隐藏单元数 量为提取得到的图像特 征的维数。 4.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 所述 文本特征提取网络采用的是一个三层全连接的多层感知模型, 其中, 第一全连接层的隐含 神经元个数为8192, 第二全连接层的隐含神经元个数为4096, 第三全连接层的隐含神经元 个数为提取的文本特 征的维数。 5.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 所述 带有空洞卷积的空间金字塔池化 块和多尺度文本特 征提取块, 具体为: 在图像模态中, 带有空洞卷积的空间金字塔池化 块包含三部分; 第一部分: 以一个全局平均池化层得到 图像的全局特征, 再进行1 ×1卷积并使用双线 性插值的方法调整到原 始输入特 征图大小; 第二部分: 多尺度部分, 创建一个1 ×1卷积以及3个3 ×3的卷积, 每个卷积的学习速率 值设置的不同; 第三部分: 连接部分, 通过将5个不同尺度的特征在通道维度连接, 使用1 ×1卷积进行 融合多尺度特征 的输出, 输出具有多尺度的图像特征, 再使用多个全连接层映射到图像空 间中进行图像 语义特征的表示, 并进行融合; 在文本模态, 多尺度文本特征提取块为多级平均池化层, 设定5个池化尺度, 并添加1 ×权 利 要 求 书 1/3 页 2 CN 114817673 A 21的卷积层, 使用联接操作后输入到多层的全连接层中, 输出文本模态的具有多尺度的特征 表示。 6.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 将多 尺度图像特征ui、 多尺度文 本特征si输入到带有跨模态联合注意力机制的融合模块中, 注意 力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征 向量T, 经成对融合后生成融合特 征向量F, 具体为: 跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各 特征项分配权 重; 注意力机制的输出 具体表示如下: 其中, Mc是第c个标签的嵌入特征, C为标签数目, Q是遮掩部分的总和, σ 指sigmoid激活 函数, 联合特 征 如下: 其中, λ是控制遮 掩部分特 征效果的参数; x,y分别表示图像和文本模态; 经成对融合后生成融合特 征向量F, 具体为: F=g(I,T); 其中g()表示融合 函数。 7.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 将融 合特征向量F与标签信息进行关系 学习, 采用误差反向传播算法优化与真实标签关系的损 失, 得到收敛的基于注意力机制的两个模态上 的网络, 再更新注意力机制中的共同语义特 征图P, 得到更新后的共同语义特征图P', 用更新后的共同语义特征图P'指导更新跨模态检 索网络, 进行迭代, 获得基于模态关系学习的跨模态检索模型M, 具体为: 利用标签信息 定义一个真实关系空间, 表示 为: 其中, S为关系空间矩阵, 为第p个图像和第q个文本的标签信息, i为图像 类别, t为 文本类别, 将类内关系定义 为1, 类间关系定义 为0; 建立关系学习的表达式如下: R=h(X,Y) 其中, 将关系学习的处 理转换表示 为非线性 函数h(·,·); 损失函数定义 为: 其中, ||·||F为Froben ius距离。 8.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法, 其特征在于, 检索 过程S2的步骤如下:权 利 要 求 书 2/3 页 3 CN 114817673 A 3

.PDF文档 专利 一种基于模态关系学习的跨模态检索方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于模态关系学习的跨模态检索方法 第 1 页 专利 一种基于模态关系学习的跨模态检索方法 第 2 页 专利 一种基于模态关系学习的跨模态检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:33:36上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。