(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111662907.0
(22)申请日 2021.12.31
(71)申请人 武汉大学
地址 430072 湖北省武汉市武昌区珞珈山
武汉大学
(72)发明人 叶茫 王同鑫 姜定
(74)专利代理 机构 武汉科皓知识产权代理事务
所(特殊普通 合伙) 42222
代理人 肖明洲
(51)Int.Cl.
G06F 16/583(2019.01)
G06F 16/383(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于细粒度语义特征差异的图像文本匹配
判别方法及系统
(57)摘要
本发明公开了一种基于细粒度语义特征差
异的图像文本匹配判别方法及系统, 属于跨模态
图文检索技术领域。 目前的跨模态图像文本检索
匹配方法一般基于粗粒度的图文匹配对数据集,
在分辨图像与文本中细粒度的语义信息差异方
面存在着一定的局限性。 本发明通过在现有的 图
像文本跨模态检索方法基础上引入细粒度语义
特征差异分析模块增强了模型对图像与文本细
粒度特征的匹配能力。 本发明提出了对图像与文
本的差异联合语义特征进行分析的方法, 使用多
层感知机后接Softmax回归分类的方式计算图像
与文本的匹配判别结果。 实验证明, 本发明在由
Flickr30 K拓展得到的自构建数据集上具有较高
的准确性。
权利要求书3页 说明书7页 附图1页
CN 114329034 A
2022.04.12
CN 114329034 A
1.一种基于细粒度语义特征差异的图像文本匹配判别方法, 其特征在于, 包括以下步
骤:
步骤1: 给定一张输入图像
和对应的描述文本
提取图像的视觉特征和文本的序列特
征;
所述图像的视 觉特征集合为:
其中, M表示图像的视觉特征数量, dv表示图像的视觉特征维度, v1,…,vM分别表示图像
的M个视觉特征,
表示实数集;
所述文本的序列特 征集合为:
其中, N表示描述文本中单词的数目, dt表示单个词向量的维度; t1,…,tN分别表示文本
中的N个单词的词向量特 征;
步骤2: 分别将图像的视觉特征和文本的序列特征映射到联合视觉语义空间中, 得到图
像语义特征向量与文本语义特征向量
其中d为图像语义特征向量和文本语义特
征向量的维度;
其中,
分别表示对图像的视 觉特征和文本的序列特 征进行的映射操作;
步骤3: 将图像语义特征向量与文本语义特征向量输入到细粒度语义特征差异分析模
块中, 预测图像与文本是否匹配;
所述细粒度语义特征差异分析模块, 包括输入和输出两个全连接层以及之间的BN层,
ReLU激活函数层和Dropout层; 输入全 连接层的输入维度为1024, 输出为512维, 输出全 连接
层输入为512维, 输出维度为2; 对于102 4维的图文语义特征向量, 输入到第一个全 连接层后
得到512维 的特征, 再经过BN层, ReLU激活函数层和Dropout层后输入到第二个全连接层后
得到维度为2的向量输出, 从输出中即可 得到图像与文本匹配的概 率。
2.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法, 其特征
在于: 步骤1中所述提取图像的视觉特征, 是将b ottom‑up attention特征提取模块用于图
像的视觉 区域特征提取; 且训练新网络 时, 在前N轮训练过程中固定b ottom‑up attention
特征提取模块的参数, 之后取消参数固定, 在训练过程中通过反向传播更新bottom ‑up
attention特征提取模块的参数, 使模块提取出的特征具有更贴合本方法的语义表达; 其
中, N为预设值。
3.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法, 其特征
在于: 步骤1中所述提取文本的序列特征, 是将BERT特征提取模块用于文本的序列特征提
取; 且训练新网络时, 在前M轮训练过程中固定BERT特征提取模块的参数, 之后取消参数固
定, 在训练过程中通过反向传播更新BERT特征提取模块的参数, 使模块提取出的特征具有
更贴合本方法的语义表达; 其中, M为预设值。
4.根据权利要求1所述的基于细粒度语义特征差异的图像文本匹配判别方法, 其特征
在于, 步骤3的具体实现包括以下子步骤:
步骤3.1: 对图像语义特征向量与文本语义特征向量进行相减操作, 得到图像与文本的权 利 要 求 书 1/3 页
2
CN 114329034 A
2图文语义差异特 征向量fdiff:
其中, 图文语义差异特 征向量
包含了细粒度的图文语义差异信息;
步骤3.2: 将图文语义差异特征向量fdiff输入到细粒度语义特征差异分析模块中, 得到
输出:
O=Lo(φ(Lh(fdiff))) (5)
其中φ(·)表示激活函数, Lo(·)和Lh(·)分别表示细粒度语义特征差异分析模块输
出层和隐藏层;
步骤3.3: 对输出O进行Softmax运算, 得到图像与文本匹配 的概率; 即为图像与文本匹
配的概率作为图像与文本的相似度, 相似度高于阈值的图像文本对判别为匹配, 低于阈值
的图像文本对判别为不匹配; 统计训练数据中图像 ‑文本样本对的相似度数值分布, 图像与
文本匹配的正样本对所对应的相似度会聚集在较高的数值范围内, 而负样本对的相似度数
值则较低, 以此 数值分布为依据划定阈值分界值。
5.根据权利要求1 ‑4任意一项所述的基于细粒度语义特征差异的图像文本匹配判别方
法, 其特征在于: 选取跨模态图像文本检索方法模 型架构与bottom ‑up attention特征提取
模块和BERT 特征提取模块构成主体网络; 训练中对主体网络参数和细粒度语义特征差异分
析模块参数采用轮次间隔交替更新的策略, 更新主体网络参数时固定细粒度语义特征差异
分析模块参数, 在细粒度语义特征差异分析模块参数更新 阶段固定主体网络参数; 同时对
主体网络参数更新和细粒度语义特征差异分析模块参数更新 阶段采用不同的负样本选取
策略, 主体网络参数更新阶段采用传统的负样 本选取策略, 对每张图片, 随机从数据中选取
不匹配的描述文本 即可; 在细粒度语义特征差异分析模块参数更新阶段采用细粒度的负样
本选取策略, 对每张图片选取与正确描述文本仅具有细微的实体或属 性错误的描述文本,
即数据集中与该图片对应的细粒度错 误描述文本 。
6.一种基于细粒度语义特征差异的图像文本匹配判别系统, 其特征在于, 包括以下模
块:
模块1, 用于给定一张输入图像
和对应的描述文本
提取图像的视觉特征和文本的序
列特征;
所述图像的视 觉特征集合为:
其中, M表示图像的视觉特征数量, dv表示图像的视觉特征维度, v1,…,vM分别表示图像
的M个视觉特征,
表示实数集;
所述文本的序列特 征集合为:
其中, N表示描述文本中单词的数目, dt表示单个词向量的维度; t1,…,tN分别表示文本
中的N个单词的词向量特 征;
模块2, 用于分别将图像的视觉特征和文本的序列 特征映射到联合视觉语义空间中, 得
到图像语义特征向量与文本语义特征向量
其中d为图像语义特征向量和文本语
义特征向量的维度;权 利 要 求 书 2/3 页
3
CN 114329034 A
3
专利 基于细粒度语义特征差异的图像文本匹配判别方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:19:59上传分享