专利基于注意力增强模块和多尺度特征融合的图像检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210499576.1 (22)申请日 2022.05.09 (71)申请人西安理工大学地址 710048 陕西省西安市碑林区金花南路5号 (72)发明人王鑫　王志晓　张九龙　屈小娥　 (74)专利代理机构西安弘理专利事务所 61214 专利代理师王奇 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/46(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于注意力增强模块和多尺度特征融合的图像检索方法 (57)摘要本发明公开一种基于注意力增强模块和多尺度特征融合的图像检索方法，首先构建AEM FFN 网络模型， A EMFFN网络模型包括依次连接的预训练好的改进的ResNet50模型、注意力增强模块 CBAM模块、尺度融合卷积层，所述尺度融合卷积层的输出端依次连接全局平均池化层、全连接层；其次采用数据集对AEMFFN网络模型进行训练，并采用训练好的AEM FFN网络模型对待检索的图片和数据库的图片进行特征提取得到特征图；最终提取到的特征图经过欧氏距离进行特征匹配，获取目标图像。本方法能够得到深层次的特征表达，提高学习效率和准确率，使得图像检索的速度更快，准确度更高。权利要求书1页说明书6页附图4页 CN 114817613 A 2022.07.29 CN 114817613 A 1.基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，包括以下步骤：步骤1，构建改进的ResNet50模型并进行预训练；改进的ResNet50模型的残差块卷积层包括依次连接的Co nv1_X、 Co nv2_X、 Co nv3_X、 Co nv4_X和Co nv5_X；步骤2，构建AEMFFN 网络模型，所述AEMFFN 网络模型包括预训练好的改进的ResNet50模型，预训练好的ResNet 50模型中的Conv3_X、 Conv4_X和Conv5_X的输出分别通过注意力增强模块CBAM模块输出相应的空间特征图，记为Conv3_X ″、 Conv4_X ″、 Conv5_X ″； Conv3_X ″、 Conv4_X″、 Conv5_X ″均连接到尺度融合卷积层，所述尺度融合卷积层的输出端依次连接全局平均池化层、全连接层；步骤3，采用数据集对AEMFFN网络模型进行训练，并采用训练好的AEMFFN网络模型对待检索的图片和数据库的图片进行特征提取得到特征图；步骤4，对步骤3提取到的特征图经过欧氏距离进行特征匹配，获取目标图像。 2.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，所述改进的ResNet50模型包括依次连接的批量归一化层、残差块卷积层、激活函数层；所述残差块卷积层包括依次连接的Conv1_X、 Conv2_X、 Conv3_X、 Conv4_X和Conv5_X；所述改进的ResNet5 0模型激活函数采用R ReLU函数。 3.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，步骤2中所述注意力增强模块CBAM由依次连接的通道注意力层CAB和空间注意力层 SAB组成，所述通道注意力层CAB包括依次连接的自适应池化层、卷积层和ReLU激活函数层；所述空间注意力层SAB包括依次连接的跳跃连接、卷积层、批量归一化层和Sigmod激活函数层；所述注意力增强模块CBAM中输入的特征图首先通过通道注意力层CAB得到通道特征图 X′，通道特征图X ′通过空间注意力层SAB得到空间注意力特征图Ms(X′)，通道特征图X ′与空间注意力特征图Ms(X′)相乘，获得最终的空间特征图X ″，所述Conv3_X、 Conv4_X、 Conv5_X的输出通过注意力增强模块CBAM分别输出得到相应的空间特征图Conv3_X ″、 Conv4_X ″、 Conv5_X″。 4.如权利要求3所述的基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，所述步骤2的尺度融合卷积层使用双线性插值分别将Conv3_X ″、 Conv4_X ″、 Conv5_ X″放缩到相同尺度并拼接为f＝{Co nv3_X″， Conv4_X″， Conv5_X″}。 5.如权利要求3所述的基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，所述步骤3中用使用联合交叉熵损失、难样本采样三元组损失和中心损失的多损失函数策略进行训练。 6.如权利要求1所述的基于注意力增强模块和多尺度特征融合的图像检索方法，其特征在于，所述步骤4具体的为：根据欧式距离公式，分别计算待检索图片与其他图片通过步骤3得到的特征图之间的欧式距离，距离最近的图片，即是我们的目标图片。权　利　要　求　书 1/1 页 2 CN 114817613 A 2基于注意力增强模块和多尺度特征融合的图像检索方法技术领域 [0001]本发明属于图像处理技术领域，涉及一种基于注意力增强模块和多尺度特征融合的图像检索方法。背景技术 [0002]目前，我们处于信息大爆发的时代，图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。针对这些包含丰富视觉信息的海量图片，如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像，如今是一个亟待解决的问题。前期大部分的图像是采用手工标注的方式来建立索引,存在着效率低,主观性等等缺陷。 TBIR(基于文本的图像检索)要求图像上传者对图像进行给出必要的标注,系统按照标注对图像进行存储索引,然后搜索引擎通过检索技术查找出和用户提供的关键字相近的图像。但由于此种方法完全没有考虑图像内容的本身,过度依赖于用户提供或者采集来的关键词,所以图像检索结果的正确性无法保证。于是CBI R(基于内容的图像检索)被提出,并得到了广泛的关注。这种检索方式是通过提取图像的底层特征,并用图像特征间的相似性来得到最终结果，但是这种传统方法仅仅提取的是图像的低层特征，具有 “语义鸿沟 ”的问题，通过卷积神经网络提取具有语义特征的高层特征，但对图像的关注区域无法判断，造成的检索结果准确度不是很高。发明内容 [0003]本发明的目的是提供一种基于注意力增强模块和多尺度特征融合的图像检索方法，本方法能够避免一些无用特征的提取，获得我们更加感兴趣的特征，同时，多尺度特征融合能利用多层特征间的互补特性改善模型，防止在训练过程中的特征丢失，使得模型得到深层次的特征表达，提高学习效率和准确率，使得图像检索的速度更快，准确度更高。 [0004]本发明所采用的技术方案是： [0005]基于注意力增强模块和多尺度特征融合的图像检索方法，包括以下步骤： [0006]步骤1，构建改进的ResNet50模型并进行预训练；改进的ResNet50模型的残差块卷积层包括依次连接的Co nv1_X、 Co nv2_X、 Co nv3_X、 Co nv4_X和Co nv5_X； [0007]步骤2，构建AEMFFN网络模型，所述AEMFFN网络模型包括预训练好的改进的 ResNet50模型，预训练好的ResNet 50模型中的Conv3_X、 Conv 4_X和Conv5_X的输出分别通过注意力增强模块CBAM模块输出相应的空间特征图，记为Conv3_X ″、 Conv4_X ″、 Conv5_X ″； Conv3_X″、 Conv4_X ″、 Conv5_X ″均连接到尺度融合卷积层，所述尺度融合卷积层的输出端依次连接全局平均池化层、全连接层； [0008]步骤3，采用数据集对AEMFFN网络模型进行训练，并采用训练好的AEMFFN网络模型对待检索的图片和数据库的图片进行特征提取得到特征图； [0009]步骤4，对步骤3提取到的特征图经过欧氏距离进行特征匹配，获取目标图像。 [0010]本发明的特点还在于：说　明　书 1/6 页 3 CN 114817613 A 3

专利 基于注意力增强模块和多尺度特征融合的图像检索方法

专利基于注意力增强模块和多尺度特征融合的图像检索方法