(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210499576.1
(22)申请日 2022.05.09
(71)申请人 西安理工大 学
地址 710048 陕西省西安市碑林区金花 南
路5号
(72)发明人 王鑫 王志晓 张九龙 屈小娥
(74)专利代理 机构 西安弘理专利事务所 61214
专利代理师 王奇
(51)Int.Cl.
G06F 16/583(2019.01)
G06V 10/46(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于注意力增强模块和多尺度特征融合的
图像检索方法
(57)摘要
本发明公开一种基于注意力增强模块和多
尺度特征融合的 图像检索方法, 首先构建AEM FFN
网络模型, A EMFFN网络模型包括依次连接的预训
练好的改进的ResNet50模型、 注意力增强模块
CBAM模块、 尺度融合卷积层, 所述尺度融合卷积
层的输出端依次连接全局平均池化层、 全连接
层; 其次采用数据集对AEMFFN网络模型进行训
练, 并采用训练好的AEM FFN网络模型对待检索的
图片和数据库的图片进行特征提取得到特征图;
最终提取到的特征图经过欧氏距离进行特征匹
配, 获取目标图像。 本方法能够得到深层次的特
征表达, 提高学习效率和准确率, 使得图像检索
的速度更 快, 准确度更高。
权利要求书1页 说明书6页 附图4页
CN 114817613 A
2022.07.29
CN 114817613 A
1.基于注意力增强模块和多尺度特征融合的图像检索方法, 其特征在于, 包括以下步
骤:
步骤1, 构建改进的ResNet50模型并进行预训练; 改进的ResNet50模型的残差块卷积层
包括依次连接的Co nv1_X、 Co nv2_X、 Co nv3_X、 Co nv4_X和Co nv5_X;
步骤2, 构建AEMFFN 网络模型, 所述AEMFFN 网络模型包括预训练好的改进的ResNet50模
型, 预训练好的ResNet 50模型中的Conv3_X、 Conv4_X和Conv5_X的输出分别通过注意力增强
模块CBAM模块输出相应的空间特征图, 记为Conv3_X ″、 Conv4_X ″、 Conv5_X ″; Conv3_X ″、
Conv4_X″、 Conv5_X ″均连接到尺度融合卷积层, 所述尺度融合卷积层的输出端依次连接全
局平均池化层、 全连接层;
步骤3, 采用数据 集对AEMFFN网络模型进行训练, 并采用训练好的AEMFFN网络模型对待
检索的图片和数据库的图片进行 特征提取得到特征图;
步骤4, 对步骤3提取到的特 征图经过欧氏距离进行 特征匹配, 获取目标图像。
2.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法, 其特
征在于, 所述改进的ResNet50模 型包括依次连接的批量归一化层、 残差块卷积层、 激活函数
层; 所述残差块卷积层包括依次连接的Conv1_X、 Conv2_X、 Conv3_X、 Conv4_X和Conv5_X; 所
述改进的ResNet5 0模型激活函数采用R ReLU函数。
3.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法, 其特
征在于, 步骤2中所述注意力增强模块CBAM由依次连接的通道注 意力层CAB和空间注意力 层
SAB组成, 所述通道注 意力层CAB包括依次连接的自适应池化层、 卷积层和ReLU激活函数层;
所述空间注 意力层SAB包括依次连接的跳跃连接、 卷积层、 批量归一化层和Sigmod激活函数
层; 所述注意力增强模块CBAM中输入的特征图首先通过通道注意力层CAB得到通道特征图
X′, 通道特征图X ′通过空间注意力层SAB得到空间注意力特征图Ms(X′), 通道特征图X ′与空
间注意力特征图Ms(X′)相乘, 获得最终的空间特征图X ″, 所述Conv3_X、 Conv4_X、 Conv5_X的
输出通过注意力增强模块CBAM分别输出得到相应的空间特征图Conv3_X ″、 Conv4_X ″、
Conv5_X″。
4.如权利要求3所述的基于注意力增强模块和多尺度特征融合的图像检索方法, 其特
征在于, 所述步骤2的尺度融合卷积层使用双线性插值分别将Conv3_X ″、 Conv4_X ″、 Conv5_
X″放缩到相同尺度并拼接为f={Co nv3_X″, Conv4_X″, Conv5_X″}。
5.如权利要求3所述的基于注意力增强模块和多尺度特征融合的图像检索方法, 其特
征在于, 所述步骤3中用使用联合交叉熵损失、 难样本采样三元组损失和中心损失的多损失
函数策略进行训练。
6.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法, 其特
征在于, 所述步骤4具体的为: 根据欧式距离公式, 分别计算待检索图片与其他图片通过步
骤3得到的特 征图之间的欧式距离, 距离最近的图片, 即是我们的目标图片。权 利 要 求 书 1/1 页
2
CN 114817613 A
2基于注意力增强模块和多尺度特征融合的图像检索方 法
技术领域
[0001]本发明属于图像处理技术领域, 涉及一种基于注意力增强模块和多尺度特征融合
的图像检索方法。
背景技术
[0002]目前, 我们处于信息大爆发的时代, 图像、 视频、 音频、 文本等异构数据每天都在以
惊人的速度增长。 针对这些包含丰富视觉信息的海量图片, 如何在这些浩瀚的图像库中方
便、 快速、 准确 地查询并检索到用户所需的或感兴趣的图像, 如今是一个亟待解决的问题。
前期大部分的图像是采用手工标注的方式来建立索引,存在着效率低,主观性等等缺陷。
TBIR(基于文本的图像检索)要求图像上传者对图像进 行给出必 要的标注,系统按照标注对
图像进行存储索引,然后搜索引擎通过检索技术查找出和用户提供 的关键字相 近的图像。
但由于此种方法完全没有考虑图像内容的本身,过度依赖于用户提供或者采集来的关键
词,所以图像检索结果的正确性无法保证。 于是CBI R(基于内容的图像检索)被提出,并得到
了广泛的关注。 这种检索方式是通过提取图像的底层特征,并用图像特征间的相似性来得
到最终结果, 但是这种传统方法仅仅提取的是图像的低层特征, 具有 “语义鸿沟 ”的问题, 通
过卷积神经网络提取具有语义特征 的高层特征, 但对图像的关注 区域无法判断, 造成的检
索结果准确度不是很高。
发明内容
[0003]本发明的目的是提供一种基于注意力增强模块和多尺度特征融合的图像检索方
法, 本方法能够避免一些无用特征的提取, 获得我们 更加感兴趣的特征, 同时, 多尺度特征
融合能利用多层特征间的互补特性改善模型, 防止在训练过程中的特征丢失, 使得模型得
到深层次的特 征表达, 提高学习效率和准确率, 使得图像 检索的速度更 快, 准确度更高。
[0004]本发明所采用的技 术方案是:
[0005]基于注意力增强模块和多尺度特 征融合的图像 检索方法, 包括以下步骤:
[0006]步骤1, 构建改进的ResNet50模型并进行预训练; 改进的ResNet50模型的残差块卷
积层包括依次连接的Co nv1_X、 Co nv2_X、 Co nv3_X、 Co nv4_X和Co nv5_X;
[0007]步骤2, 构建AEMFFN网络模型, 所述AEMFFN网络模型包括预训练好的改进的
ResNet50模型, 预训练好的ResNet 50模型中的Conv3_X、 Conv 4_X和Conv5_X的输 出分别通过
注意力增强模块CBAM模块输出相应的空间特征图, 记为Conv3_X ″、 Conv4_X ″、 Conv5_X ″;
Conv3_X″、 Conv4_X ″、 Conv5_X ″均连接到尺度融合卷积层, 所述尺度融合卷积层的输出端依
次连接全局平均池化层、 全连接层;
[0008]步骤3, 采用数据集对AEMFFN网络模型进行训练, 并采用 训练好的AEMFFN网络模型
对待检索的图片和数据库的图片进行 特征提取得到特征图;
[0009]步骤4, 对步骤3提取到的特 征图经过欧氏距离进行 特征匹配, 获取目标图像。
[0010]本发明的特点还在于:说 明 书 1/6 页
3
CN 114817613 A
3
专利 基于注意力增强模块和多尺度特征融合的图像检索方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:37:53上传分享