专利 基于细粒度语义特征差异的图像文本匹配判别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111662907.0 (22)申请日 2021.12.31 (71)申请人武汉大学地址 430072 湖北省武汉市武昌区珞珈山武汉大学 (72)发明人叶茫　王同鑫　姜定　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人肖明洲 (51)Int.Cl. G06F 16/583(2019.01) G06F 16/383(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于细粒度语义特征差异的图像文本匹配判别方法及系统 (57)摘要本发明公开了一种基于细粒度语义特征差异的图像文本匹配判别方法及系统，属于跨模态图文检索技术领域。目前的跨模态图像文本检索匹配方法一般基于粗粒度的图文匹配对数据集，在分辨图像与文本中细粒度的语义信息差异方面存在着一定的局限性。本发明通过在现有的图像文本跨模态检索方法基础上引入细粒度语义特征差异分析模块增强了模型对图像与文本细粒度特征的匹配能力。本发明提出了对图像与文本的差异联合语义特征进行分析的方法，使用多层感知机后接Softmax回归分类的方式计算图像与文本的匹配判别结果。实验证明，本发明在由 Flickr30 K拓展得到的自构建数据集上具有较高的准确性。权利要求书3页说明书7页附图1页 CN 114329034 A 2022.04.12 CN 114329034 A 1.一种基于细粒度语义特征差异的图像文本匹配判别方法，其特征在于，包括以下步骤：步骤1：给定一张输入图像和对应的描述文本提取图像的视觉特征和文本的序列特征；所述图像的视觉特征集合为：其中， M表示图像的视觉特征数量， dv表示图像的视觉特征维度， v1,…,vM分别表示图像的M个视觉特征，表示实数集；所述文本的序列特征集合为：其中， N表示描述文本中单词的数目， dt表示单个词向量的维度； t1,…,tN分别表示文本中的N个单词的词向量特征；步骤2：分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中，得到图像语义特征向量与文本语义特征向量其中d为图像语义特征向量和文本语义特征向量的维度；其中，分别表示对图像的视觉特征和文本的序列特征进行的映射操作；步骤3：将图像语义特征向量与文本语义特征向量输入到细粒度语义特征差异分析模块中，预测图像与文本是否匹配；所述细粒度语义特征差异分析模块，包括输入和输出两个全连接层以及之间的BN层， ReLU激活函数层和Dropout层；输入全连接层的输入维度为1024，输出为512维，输出全连接层输入为512维，输出维度为2；对于102 4维的图文语义特征向量，输入到第一个全连接层后得到512维的特征，再经过BN层， ReLU激活函数层和Dropout层后输入到第二个全连接层后得到维度为2的向量输出，从输出中即可得到图像与文本匹配的概率。 2.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法，其特征在于：步骤1中所述提取图像的视觉特征，是将b ottom‑up attention特征提取模块用于图像的视觉区域特征提取；且训练新网络时，在前N轮训练过程中固定b ottom‑up attention 特征提取模块的参数，之后取消参数固定，在训练过程中通过反向传播更新bottom ‑up attention特征提取模块的参数，使模块提取出的特征具有更贴合本方法的语义表达；其中， N为预设值。 3.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法，其特征在于：步骤1中所述提取文本的序列特征，是将BERT特征提取模块用于文本的序列特征提取；且训练新网络时，在前M轮训练过程中固定BERT特征提取模块的参数，之后取消参数固定，在训练过程中通过反向传播更新BERT特征提取模块的参数，使模块提取出的特征具有更贴合本方法的语义表达；其中， M为预设值。 4.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法，其特征在于，步骤3的具体实现包括以下子步骤：步骤3.1：对图像语义特征向量与文本语义特征向量进行相减操作，得到图像与文本的权　利　要　求　书 1/3 页 2 CN 114329034 A 2图文语义差异特征向量fdiff：其中，图文语义差异特征向量包含了细粒度的图文语义差异信息；步骤3.2：将图文语义差异特征向量fdiff输入到细粒度语义特征差异分析模块中，得到输出： O＝Lo(φ(Lh(fdiff))) (5) 其中φ(·)表示激活函数， Lo(·)和Lh(·)分别表示细粒度语义特征差异分析模块输出层和隐藏层；步骤3.3：对输出O进行Softmax运算，得到图像与文本匹配的概率；即为图像与文本匹配的概率作为图像与文本的相似度，相似度高于阈值的图像文本对判别为匹配，低于阈值的图像文本对判别为不匹配；统计训练数据中图像 ‑文本样本对的相似度数值分布，图像与文本匹配的正样本对所对应的相似度会聚集在较高的数值范围内，而负样本对的相似度数值则较低，以此数值分布为依据划定阈值分界值。 5.根据权利要求1 ‑4任意一项所述的基于细粒度语义特征差异的图像文本匹配判别方法，其特征在于：选取跨模态图像文本检索方法模型架构与bottom ‑up attention特征提取模块和BERT 特征提取模块构成主体网络；训练中对主体网络参数和细粒度语义特征差异分析模块参数采用轮次间隔交替更新的策略，更新主体网络参数时固定细粒度语义特征差异分析模块参数，在细粒度语义特征差异分析模块参数更新阶段固定主体网络参数；同时对主体网络参数更新和细粒度语义特征差异分析模块参数更新阶段采用不同的负样本选取策略，主体网络参数更新阶段采用传统的负样本选取策略，对每张图片，随机从数据中选取不匹配的描述文本即可；在细粒度语义特征差异分析模块参数更新阶段采用细粒度的负样本选取策略，对每张图片选取与正确描述文本仅具有细微的实体或属性错误的描述文本，即数据集中与该图片对应的细粒度错误描述文本。 6.一种基于细粒度语义特征差异的图像文本匹配判别系统，其特征在于，包括以下模块：模块1，用于给定一张输入图像和对应的描述文本提取图像的视觉特征和文本的序列特征；所述图像的视觉特征集合为：其中， M表示图像的视觉特征数量， dv表示图像的视觉特征维度， v1,…,vM分别表示图像的M个视觉特征，表示实数集；所述文本的序列特征集合为：其中， N表示描述文本中单词的数目， dt表示单个词向量的维度； t1,…,tN分别表示文本中的N个单词的词向量特征；模块2，用于分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中，得到图像语义特征向量与文本语义特征向量其中d为图像语义特征向量和文本语义特征向量的维度；权　利　要　求　书 2/3 页 3 CN 114329034 A 3

专利 基于细粒度语义特征差异的图像文本匹配判别方法及系统

专利基于细粒度语义特征差异的图像文本匹配判别方法及系统