专利一种基于模态关系学习的跨模态检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210389983.7 (22)申请日 2022.04.14 (71)申请人华侨大学地址 362000 福建省泉州市丰泽区城东城华北路269号 (72)发明人曾焕强　王欣唯　朱建清　陈婧　黄德天　温廷羲　郭荣新　 (74)专利代理机构厦门市首创君合专利事务所有限公司 3 5204 专利代理师连耀忠 (51)Int.Cl. G06F 16/908(2019.01) G06F 16/906(2019.01) G06V 10/764(2022.01) G06V 10/80(2022.01) (54)发明名称一种基于模态关系学习的跨模态检索方法 (57)摘要本发明提出一种基于模态关系学习的跨模态检索方法，将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练，直至模型收敛，从而获得网络模型M；利用S1中训练得到网络模型M 分别提取待查询图像/文本和候选库中每个文本/图像的特征向量，从而计算待查询图像文本与候选库中文本/图像的相似度，根据相似度的大小进行降序排序，并返回相似度最高的检索结果；建立模态间和模态内的双重融合机制进行模态间关系学习，不仅在模态内融合多尺度的特征，还在模态间使用标签的关系信息直接对融合特征进行互补性关系学习，另外，加入模态间的注意力机制进行特征联合嵌入，进一步的提高了跨模态的检索性能。权利要求书3页说明书7页附图1页 CN 114817673 A 2022.07.29 CN 114817673 A 1.一种基于模态关系学习的跨模态检索方法，其特征在于，包括训练过程和检索过程，步骤如下：训练过程S 1：将数据集中相同语义的图像文本对以及所属的类标签输入到基于模态关系学习的跨模态检索网络模型中训练，直至模型收敛，从而获得网络模型M；检索过程S2：利用S1中训练得到网络模型M分别提取待查询图像/文本和候选库中每个文本/图像的特征向量，从而计算待查询图像文本与候选库中文本/图像的相似度，根据相似度的大小进行降序排序，并返回相似度最高的检索结果。 2.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法，其特征在于，训练过程S1的步骤如下：步骤S11)：将不同类别的图像数据vi输入到图像模态特征提取网络中提取图像特征；步骤S12)：将与图像数据vi对应的文本数据ti输入到文本模态特征提取网络中提取文本数据的特征；步骤S13)：将提取的图像特征和文本特征分别输入到带有空洞卷积的空间金字塔池化块和多尺度文本特征块中提取多尺度图像特征ui、多尺度文本特征si；步骤S14)：将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中，注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T，经成对融合后生成融合特征向量F；步骤S15)：将融合特征向量F与标签信息进行关系学习，采用误差反向传播算法优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，再更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P' 指导更新跨模态检索网络，进行迭代，获得基于模态关系学习的跨模态检索模型M 。 3.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述图像特征提取网络由16个卷积层、 4个池化层、 1个全连接层组成，其中全连接层隐藏单元数量为提取得到的图像特征的维数。 4.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述文本特征提取网络采用的是一个三层全连接的多层感知模型，其中，第一全连接层的隐含神经元个数为8192，第二全连接层的隐含神经元个数为4096，第三全连接层的隐含神经元个数为提取的文本特征的维数。 5.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，所述带有空洞卷积的空间金字塔池化块和多尺度文本特征提取块，具体为：在图像模态中，带有空洞卷积的空间金字塔池化块包含三部分；第一部分：以一个全局平均池化层得到图像的全局特征，再进行1 ×1卷积并使用双线性插值的方法调整到原始输入特征图大小；第二部分：多尺度部分，创建一个1 ×1卷积以及3个3 ×3的卷积，每个卷积的学习速率值设置的不同；第三部分：连接部分，通过将5个不同尺度的特征在通道维度连接，使用1 ×1卷积进行融合多尺度特征的输出，输出具有多尺度的图像特征，再使用多个全连接层映射到图像空间中进行图像语义特征的表示，并进行融合；在文本模态，多尺度文本特征提取块为多级平均池化层，设定5个池化尺度，并添加1 ×权　利　要　求　书 1/3 页 2 CN 114817673 A 21的卷积层，使用联接操作后输入到多层的全连接层中，输出文本模态的具有多尺度的特征表示。 6.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，将多尺度图像特征ui、多尺度文本特征si输入到带有跨模态联合注意力机制的融合模块中，注意力机制根据模态间的共同语义信息特征图P生成语义相关性的图像特征向量I和文本特征向量T，经成对融合后生成融合特征向量F，具体为：跨模态联合注意力机制根据融合模态在标签空间的距离为表示的各特征项分配权重；注意力机制的输出具体表示如下：其中， Mc是第c个标签的嵌入特征， C为标签数目， Q是遮掩部分的总和， σ 指sigmoid激活函数，联合特征如下：其中， λ是控制遮掩部分特征效果的参数； x,y分别表示图像和文本模态；经成对融合后生成融合特征向量F，具体为： F＝g(I,T)；其中g()表示融合函数。 7.根据权利要求2所述的一种基于模态关系学习的跨模态检索方法，其特征在于，将融合特征向量F与标签信息进行关系学习，采用误差反向传播算法优化与真实标签关系的损失，得到收敛的基于注意力机制的两个模态上的网络，再更新注意力机制中的共同语义特征图P，得到更新后的共同语义特征图P'，用更新后的共同语义特征图P'指导更新跨模态检索网络，进行迭代，获得基于模态关系学习的跨模态检索模型M，具体为：利用标签信息定义一个真实关系空间，表示为：其中， S为关系空间矩阵，为第p个图像和第q个文本的标签信息， i为图像类别， t为文本类别，将类内关系定义为1，类间关系定义为0；建立关系学习的表达式如下： R＝h(X,Y) 其中，将关系学习的处理转换表示为非线性函数h(·,·)；损失函数定义为：其中， ||·||F为Froben ius距离。 8.根据权利要求1所述的一种基于模态关系学习的跨模态检索方法，其特征在于，检索过程S2的步骤如下：权　利　要　求　书 2/3 页 3 CN 114817673 A 3

专利 一种基于模态关系学习的跨模态检索方法

专利一种基于模态关系学习的跨模态检索方法