专利基于双重注意力机制的图像目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210614509.X (22)申请日 2022.05.27 (71)申请人浙江中烟工业有限责任公司地址 310008 浙江省杭州市上城区中山南路77号 (72)发明人高扬华　陆海良　王毅君　郁钢　 (74)专利代理机构北京维澳专利代理有限公司 11252 专利代理师段媛媛 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/40(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称基于双重注意力机制的图像目标检测方法 (57)摘要本发明公开了一种基于双重注意力机制的图像目标检测方法，包括：对多张训练图片进行 CutMix操作，得到预处理数据；基于卷积神经网络，提取预处理数据中的图像特征，构成自下而上的金字塔结构，得到多尺度特征图；基于双重注意力机制，将多尺度特征图嵌入到目标检测模型的检测模块网络中，得到双重注意力信息特征图；根据双重注意力信息特征图生成输入样本的候选区域。本发明的基于双重注意力机制的图像目标检测方法，通过多向特征融合机制，使包含丰富上下文信息的多向融合特征送入检测网络；将注意力机制部署在通道和空间维度上，使不同分支根据训练目标自主从特征图中筛选有效信息，提高网络关注有用信息的能力，提高泛化能力和检测性能。权利要求书3页说明书8页附图2页 CN 114863236 A 2022.08.05 CN 114863236 A 1.一种基于双重注意力机制的图像目标检测方法，其特征在于，包括：对多张训练图片进行CutMix操作，得到预处理数据；基于卷积神经网络，提取所述预处理数据中的图像特征，构成一个自下而上的金字塔结构，得到多尺度特征图；基于双重注意力机制，将所述多尺度特征图嵌入到目标检测模型的检测模块网络中，得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图；根据所述双重注意力信息特征图生成输入样本的候选区域。 2.根据权利要求1所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述对多张训练图片进行CutMix操作，得到预处理数据，具体包括：从训练集中一次读取四张训练图片和四张训练图片对应的标注信息；对所读取的四张训练图片进行随机裁剪，保留裁剪区域内的标签信息，并对边缘处的目标位置信息进行相应的裁剪操作；将得到的四个图片区域按读入的顺序分别在左上、左下、右上和右下四个位置重新组合成新的图片，同时调整标注信息中的目标位置，使其与新图片中的坐标对齐；将重组图片和对应的标注信息组合成新的数据集。 3.根据权利要求1所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述基于卷积神经网络，提取所述预处理数据中的图像特征，构成一个自下而上的金字塔结构，得到多尺度特征图，具体包括：通过特征提取网络提取所述预处理数据中的图像特征，输出三层由不同网络层输出的多尺度特征；通过由卷积核尺寸为1x1的卷积神经网络对三层的多尺度特征进行通道压缩，作为特征金字塔网络的输入；利用特征金字塔网络通过一条自顶向下的路径和同级特征相加的方式对来自横向连接的特征进行融合，得到最终的第一融合特征P3、第二融合特征P4和第三融合特征P5；对所述第三融合特征进行两次上采样操作，得到更抽象的第一高级特征P6和第二高级特征P7；将第一融合特征P3、第二融合特征P4和第三融合特征P5、第一高级特征P6和第二高级特征P7作为所述多尺度特征图，直接作为检测模块网络的最终输入。 4.根据权利要求3所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述基于双重注意力机制，将所述多尺度特征图嵌入到目标检测模型的检测模块网络中，得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图，具体包括：利用双重注意力模块，将所述多尺度特征图嵌入到目标检测模型的检测模块网络中，得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图，其中，所述双重注意力模块包括三条支路网络，分别为空间注意力支路、通道注意力支路和原始特征传输支路。 5.根据权利要求4所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述利用双重注意力模块，将所述多尺度特征图嵌入到目标检测模型的检测模块网络中，得到包括空间注意力信息和通道注意力信息的双重注意力信息特征图，具体包括：对所述多尺度特征图分别在空间和通道两个维度上进行注意力机制网络的学习，其权　利　要　求　书 1/3 页 2 CN 114863236 A 2中，空间维度对应的空间注意力支路和通道维度对应的通道注意力支路包括平均池化和最大池化的组合结构，在所述空间注意力支路和所述通道注意力支路对应的网络结构中， Pl 表示来自所述特征金字塔网络的第l层的输出特征，作为双重注意力模块的输入，输入特征的维度表示为H ×W×C， H表示多尺度特征图的长， W表示多尺度特征图的宽， C表示多尺度特征图的通道数；对于空间注意力支路，在空间维度上分别对输入特征Pl进行最大池化和平均池化计算，分别得到H ×W×1的权重矩阵，然后对通过最大池化和平均池化两种池化操作得到的矩阵进行拼接，得到包含多重特征信息的权重矩阵，维度为H ×W×2，再使用卷积操作对拼接的结果进行通道的压缩，最终得到维度为H ×W×1的空间注意力权重矩阵，该过程可以表示为式(1)， Ws＝Conv1×1(concat(Smaxpool(Pl)， Savgpool(Pl))) (1) 其中， Ws表示包含空间注意力信息的权重矩阵， Conv1×1表示卷积核尺寸为1 ×1的卷积操作， Smaxpool为空间维度上的最大池化， Savgpool为空间维度上的平均池化；对于通道注意力支路，在通道维度上分别对输入特征Pl进行最大池化和平均池化计算，通过不同的池化操作将每个通道上的维度为H ×W×C的矩阵压缩为一个维度为1 ×1×C的矩阵，然后对通过最大池化和平均池化两种池化操作得到的的两个权重矩阵进行拼接，得到维度为 1×1×2C的矩阵，再使用卷积操作进行降维，最终得到维度为1 ×1×C的通道注意力权重矩阵，该过程如式(2)所示， Wc＝Conv1×1(concat(Cmaxpool(Pl)， Cavgpool(Pl))) (2) 其中， Wc表示包含通道注意力信息的权重矩阵， Conv1×1表示卷积核尺寸为1 ×1的卷积操作， Cmaxpool为通道维度上的最大池化， Cavgpool为通道维度上的平均池化；将包含空间注意力信息的权重矩阵和包含通道注意力信息的权重矩阵相乘，得到最终的双重注意力权重矩阵WMatrix，如式(3)，将得到的双重注意力权重矩阵经过Sigmoid函数进行激活， Sigmo id定义如式(4)，将激活后的双重注意力权重矩阵与原始输入特征进行加权求和操作，得到带有丰富的注意力信息的特征图，如式(5)， 6.根据权利要求1所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述根据所述双重注意力信息特征图生成输入样本的候选区域，具体包括：利用RPN网络将输入样本输出为多个候选区域；利用目标检测模型的损失函数对多个候选区域进行分类概率和边框回归联合训练，确定输入样本最终的位置和类别信息。 7.根据权利要求6所述的基于双重注意力机制的图像目标检测方法，其特征在于，所述目标检测模型的损失函数包括分类损失和回归损失，定义如下：权　利　要　求　书 2/3 页 3 CN 114863236 A 3

专利 基于双重注意力机制的图像目标检测方法

专利基于双重注意力机制的图像目标检测方法