专利一种基于深度学习的场景识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221041620 6.7 (22)申请日 2022.04.20 (71)申请人乐知未来科技（深圳）有限公司地址 518129 广东省深圳市龙岗区坂田街道社区黄军山综合楼801-826 (72)发明人刘怀亮　梁玮麟　赵舰波　杨斌　 (74)专利代理机构西安嘉思特知识产权代理事务所(普通合伙) 6123 0 专利代理师辛菲 (51)Int.Cl. G06V 20/00(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01) (54)发明名称一种基于深度学习的场景识别方法 (57)摘要本发明公开了一种基于深度学习的场景识别方法，包括：对待识别的原始图片进行预处理，获得尺寸和通道一致的待识别图像；构建深度学习网络，并对所述深度学习网络进行训练，获得训练后的深度学习网络模型，其中，所述深度学习网络包括目标检测网络单元、场景识别网络单元、第一特征融合单元、注意力网络单元以及第二特征融合单元；将所述待识别图像输入训练后的深度学习网络模型中，获得图像的场景识别结果。本发明通过低 ‑高层特征的融合，结合注意力机制，增加图像特征中的细节信息，可以对原始图片进行有效的场景分类。权利要求书1页说明书7页附图2页 CN 114972965 A 2022.08.30 CN 114972965 A 1.一种基于深度学习的场景识别方法，其特征在于，包括：对待识别的原始图片进行预处理，获得尺寸和通道一致的待识别图像；构建深度学习网络，并对所述深度学习网络进行训练，获得训练后的深度学习网络模型，其中，所述深度学习网络包括目标检测网络单元、场景识别网络单元、第一特征融合单元、注意力网络单元以及第二特征融合单元，其中，所述目标检测网络单元用于获得所述待识别图像的目标特征向量；所述场景识别网络单元用于获得所述待识别图像的场景特征向量；所述第一特征融合单元用于对所述目标特征向量和所述场景特征向量进行融合，获得带有目标属性和场景属性的融合特征向量；所述注意力网络单元用于根据所述融合特征向量获得待识别图像的全局特征信息和局部特征信息；所述第二特征融合单元用于将所述目标特征向量、所述场景特征向量、所述全局特征信息和所述局部特征信息进行融合，并获得场景分类结果；将所述待识别图像输入训练后的深度学习网络模型中，获得图像的场景识别结果。 2.根据权利要求1所述的基于深度学习的场景识别方法，其特征在于，所述目标检测网络单元为Yolo网络，所述场景识别网络单元为去掉最后全连接层的Resnet18网络。 3.根据权利要求1所述的基于深度学习的场景识别系统，其特征在于，所述注意力网络单元包括全局特征网络和局部特征网络，其中，所述全局特征网络包括依次连接的第一全局平均池化层、第一全连接层、第二全连接层、 sigmoid激活函数层和第二全局平均池化层，其中，所述第一全局平均池化层用于对所述融合特征向量中每一层的特征图进行全局平均，获得一个包含全局上下文信息的特征值，所述第一全连接层和所述第二全连接层用于捕捉所述特征值通道之间的相关性，所述 sigmoid激活函数层用于学习通道的权重因子，所述第二全局平均池化层用于获得每个通道的全局特征信息；所述局部特征网络包括注意力残差模块和第三全局平均池化层，所述注意力残差模块用于增强所述融合特征向量的局部细节信息，获得注意力图，所述第三全局平均池化层用于根据所述注意力图提取局部特征信息。 4.根据权利要求3所述的基于深度学习的场景识别方法，其特征在于，对所述深度学习网络模型进行训练，包括：利用具有场景标签和场景中目标标签的大量图像组成图像训练集；利用所述图像训练集中的图片对所述深度学习网络模型进行训练，获得训练后的深度学习网络模型。 5.根据权利要求3所述的基于深度学习的场景识别方法，其特征在于，所述第二特征融合单元为哈德玛融合单元，用于将所述目标检测网络单元提取的目标特征向量、场景识别网络单元提取的场景特征向量、所述全局特征网络单元提取的全局特征向量以及所述局部特征网络提取的局部特征向量进行融合，并通过softmax进行分类。 6.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序用于执行权利要求1至 5中任一项所述基于深度学习的场景识别方法的步骤。 7.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求 1至5任一项所述基于深度学习的场景识别方法的步骤。权　利　要　求　书 1/1 页 2 CN 114972965 A 2一种基于深度学习的场景识别方法技术领域 [0001]本发明属于场景识别技术领域，具体涉及一种基于深度学习的场景识别方法。背景技术 [0002]近几年，随着科学技术的发展，基于深度学习的图像分类、目标检测技术在计算机视觉领域取得了巨大的成就，而场景识别作为计算机视觉重要的研究方向之一，在自动导航、无人机领域等方面有着广泛的应用前景。场景识别是指识别图像中的场景，将其分类到预先定义的场景类别中，常见的场景类别分为：自然场景(森林、大海、沙漠等)、人工场景 (机场、篮球场等)和室内场景(教室、会议室等)，场景概念复杂多样，提高对场景图像的理解，是目前计算机视觉领域中重要的发展方向。相对物体目标识别来说，同一场景类别具有类间差异小、类内差异大的特点，目前计算机系统仍无法像人类那样能够准备的判断出场景类别。 [0003]早期的场景识别方法主要使用图像浅层特征描述算子表示场景图片，如尺度不变特征变换(Scale ‑invariant feature transform， SIFT)、方向梯度直方图(Histo gram of Oriented Gradient,HOG)、局部二值模式(Local Binary Pattern， LBP)等，其常用来描述图像颜色、纹理、形状等基本特征，但这种特征形式简单、便于获取，但却具有一定的局限性。随着深度学习的发展，卷积神经网络(convolutional neural network， CNN)在场景识别上的应用越来越多，常通过多个网络架构获取不同层次的图像特征，通过对多个模型特征的融合，将其作为训练网络的输入，然后进行场景图像的分类。 [0004]基于CNN的场景识别方法都是通过对整体图像特征的训练分析，从而得到最后的分类结果，但是在场景图像中，并不是图像上的所有特征均是计算机系统判断场景类别的有效信息，这种方法会导致非有效场景图像特征将会对最终分类结果造成较大的干扰，使准确率下降。发明内容 [0005]为了解决现有技术中存在的上述问题，本发明提供了一种基于深度学习的场景识别方法。本发明要解决的技术问题通过以下技术方案实现： [0006]本发明的一个方面提供了一种基于深度学习的场景识别方法，包括： [0007]对待识别的原始图片进行预处理，获得尺寸和通道一致的待识别图像； [0008]构建深度学习网络，并对所述深度学习网络进行训练，获得训练后的深度学习网络模型，其中，所述深度学习网络包括目标检测网络单元、场景识别网络单元、第一特征融合单元、注意力网络单元以及第二特征融合单元，其中，所述目标检测网络单元用于获得所述待识别图像的目标特征向量；所述场景识别网络单元用于获得所述待识别图像的场景特征向量；所述第一特征融合单元用于对所述目标特征向量和所述场景特征向量进行融合，获得带有目标属性和场景属性的融合特征向量；所述注意力网络单元用于根据所述融合特征向量获得待识别图像的全局特征信息和局部特征信息；所述第二特征融合单元用于将所说　明　书 1/7 页 3 CN 114972965 A 3

专利 一种基于深度学习的场景识别方法

专利一种基于深度学习的场景识别方法