专利基于改进YOLOv4的非结构环境下葡萄识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210481476.6 (22)申请日 2022.05.05 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人程广贵　郑诗武　郭灿志　丁建宁　张忠强　 (74)专利代理机构南京智造力知识产权代理有限公司 32382 专利代理师包甄珍 (51)Int.Cl. G06V 20/68(2022.01) G06V 20/10(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 10/40(2022.01) G06V 10/762(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称基于改进YOLOv4的非结构环境下葡萄识别方法 (57)摘要本发明涉及图像处理技术领域，具体涉及基于改进YOLOv4的非结构环境下葡萄识别方法。该方法在主干网络的残差体模块中融入Si mAM注意力机制，增加特征融合网络连接路径并为融合的特征图分配简单权重。通过对重要特征的高效提取及融合，抑制无用特征，实现在复杂工作条件下对葡萄的实时检测。此外为了提高改进YOLOv4 的训练效率，本发明使用Focal loss优化BCE loss，并根据模型结构及训练对象调整超参数，使得预测效果最佳。权利要求书3页说明书8页附图6页 CN 115050021 A 2022.09.13 CN 115050021 A 1.基于改进YOLO v4的非结构环境下葡萄识别方法，其特征在于，具体步骤如下：步骤一，构建数据集；步骤1.1，分别在不同时段、不同光照角度、不同视角拍照自然环境下的葡萄图像；步骤1.2，对葡萄目标进行标注；步骤1.3，利用亮度调整、高斯模糊、仿射变换、镜像翻转、雨化处理五种方法对葡萄图像进行数据增强及增广；步骤1.4，将数据集分为训练集、测试集、验证集；步骤二，构建特征提取网络；步骤2.1，推导SimAM注意力模块，通过计算能量函数来评估各个像素点的重要性，最小能量如公式(1)所示：其中分别为特征图单通道内像素的均值和方差， t为单通道内目标像素值， λ为超参数；将最小能量的倒数经过Sigmoid激活函数后与自身相乘，实现权值的分配，如公式(2) 所示：其中E为在所有通道和空间维度的集合， X为输入特征图；步骤2.2，将训练集作为输入，使用大小为3 ×3的卷积层来丰富输入图像的通道信息，得到输出的特征图为F2.2；步骤2.3，将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中，形成新的 Resblock_body_AM模块；其结构为：输入特征F2.2首先经过3 ×3卷积层收缩尺度；然后分别通过2个大小为1 ×1卷积层分割通道数，得到特征图F2.3.1和F2.3.2；再将F2.3.2输入残差块， F2.3.2在残差块中有序地经过大小为1 ×1和3×3的卷积层处理并将处理结果与自身相加，残差块将重复堆叠n次，得到特征图F2.3.3，如公式(3)所示： F2.3.3＝(F2.3.2+φ3(φ1(F2.3.2)))n#(3)；其中φ1和φ3分别为大小为1 ×1和3×3的卷积层；之后1 ×1卷积层对特征图F2.3.3进行空间维度整合；整合后的特征图与F2.3.1拼接，再用以1 ×1卷积层进行通道维度整合；最后经过SimAM注意力机制激发重要特征，得到Resblock_body_AM模块输出特征图F2.3，如公式(4) 所示： F2.3＝ ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(4)；其中φ1为大小为1 ×1的卷积层， Cat为拼接函数， ψ为注意力机制函数；步骤2.4，反复堆叠Resbl ock_body_AM模块5次，获得输出特征图P1、 P2、 P3、 P4、 P5；步骤三，构建特征融合网络；步骤3.1，将特征图P5输入大小为1 ×1、 3×3、 1×1的卷积组，为空间金字塔池化调整通道数，得到特征图F3.1；步骤3.2，使用空间金字塔池化模块增大特征图F3.1的感受野，其结构为：将F3.1分别通过大小为5 ×5、 9×9、 13×13的最大池化层，再将池化结果进行通道拼接，得到特征图F3.2.1，权　利　要　求　书 1/3 页 2 CN 115050021 A 2如公式(5)所示： F3.2.1＝Cat( τ5(F3.1), τ9(F3.1), τ13(F3.1))#(5)；其中τ5、 τ9、 τ13分别为大小为5 ×5、 9×9、 13×13的最大池化层， C at为拼接函数；再将特征图F3.2.1输入大小为1 ×1、 3×3、 1×1的卷积组调整通道数，得到输出特征图F3.2；步骤3.3，将特征图F3.2经过上采样层，得到特征图F3.3.1；再将特征图P4经过大小为1 ×1 的卷积层调整通道数，得到特征图F3.3.2；将特征图F3.3.1与特征图F3.3.2拼接，再经过由5个大小分别为 1×1、 3×3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息，得到特征图 F3.3，如公式(6)所示： F3.3＝Φ5(Cat(up(F3.2),φ1(P4)))#(6)；其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组， up为上采样层， φ1为大小为1×1的卷积层， Cat为拼接函数；步骤3.4，将特征图F3.3经过上采样层，得到特征图F3.4.1；再将特征图P3经过大小为1 ×1 的卷积层调整通道数，得到特征图F3.4.2；将特征图F3.4.2与特征图F3.4.1拼接，再经过由5个大小分别为 1×1、 3×3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息，得到特征图 F3.4，如公式(7)所示： F3.4＝Φ5(Cat(up(F3.3),φ1(P3)))#(7)；其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组， up为上采样层， φ1为大小为1×1的卷积层， Cat为拼接函数；步骤3.5，将特征图F3.4经过下采样层，得到特征图F3.5.1；再分别对特征图F3.3、 F3.5.1、 F3.3.2施加权重ω0、 ω1、 ω2；将处理后的3个特征图相加，再经过由5个大小分别为1 ×1、 3× 3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息，得到特征图F3.5如公式(8)所示： F3.5＝Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(8)；其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组， do wn为下采样层；步骤3.6，将特征图F3.5经过下采样层，得到特征图F3.6.1；将特征图F3.6.1与特征图F3.2拼接，再经过由5个大小分别为1×1、 3×3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息，得到特征图F3.6，如公式(9)所示： F3.6＝Φ5(Cat(down(F3.5),F3.2))#(9)；其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组， do wn为下采样层；步骤四，预测目标与损失传递；步骤4.1，模型检测器由1个大小为3 ×3的卷积层和1个大小为1 ×1的卷积核组成，将特征图F3.6、 F3.5、 F3.4输入3个对应尺度的检测器预测葡萄的空间位置，得到最终预测特征图 Out1、 Out2、 Out3；步骤4.2，使用BCE loss和CIoU loss函数计算预测特征图Out1、 Out2、 Out3与真实值之间的置信度、分类、定位损失，其中置信度损失如公式(10)所示：权　利　要　求　书 2/3 页 3 CN 115050021 A 3

专利 基于改进YOLOv4的非结构环境下葡萄识别方法

专利基于改进YOLOv4的非结构环境下葡萄识别方法