(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210481476.6
(22)申请日 2022.05.05
(71)申请人 江苏大学
地址 212013 江苏省镇江市京口区学府路
301号
(72)发明人 程广贵 郑诗武 郭灿志 丁建宁
张忠强
(74)专利代理 机构 南京智造力知识产权代理有
限公司 32382
专利代理师 包甄珍
(51)Int.Cl.
G06V 20/68(2022.01)
G06V 20/10(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06V 10/40(2022.01)
G06V 10/762(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
基于改进YOLOv4的非结构环境下葡萄识别
方法
(57)摘要
本发明涉及图像处理技术领域, 具体涉及基
于改进YOLOv4的非结构环境下葡萄识别方法。 该
方法在主干网络的残差体模块中融入Si mAM注意
力机制, 增加特征融合网络连接路径并为融合的
特征图分配简单权重。 通过对重要特征的高效提
取及融合, 抑制无用特征, 实现在复杂工作条件
下对葡萄的实时检测。 此外为了提高 改进YOLOv4
的训练效率, 本发明使用Focal loss优化BCE
loss, 并根据模型结构及训练对象调整超参数,
使得预测效果 最佳。
权利要求书3页 说明书8页 附图6页
CN 115050021 A
2022.09.13
CN 115050021 A
1.基于改进YOLO v4的非结构环境下葡萄识别方法, 其特 征在于, 具体步骤如下:
步骤一, 构建数据集;
步骤1.1, 分别在不同时段、 不同光照角度、 不同视角拍照自然环境下的葡萄图像;
步骤1.2, 对葡萄目标进行 标注;
步骤1.3, 利用亮度调整、 高斯模糊、 仿射变换、 镜像翻转、 雨化处理五种方法对葡萄图
像进行数据增强及增广;
步骤1.4, 将数据集分为训练集、 测试集、 验证集;
步骤二, 构建特 征提取网络;
步骤2.1, 推导SimAM注意力 模块, 通过计算能量函数来评估各个像素点的重要性, 最小
能量如公式(1)所示:
其中
分别为特征图单通道内像素的均 值和方差, t为单通道内目标像素值, λ为超
参数; 将最小能量的倒数经过Sigmoid激活函数后与自身相乘, 实现权值的分配, 如公 式(2)
所示:
其中E为
在所有通道和空间维度的集 合, X为输入特 征图;
步骤2.2, 将训练集作为输入, 使用大小为3 ×3的卷积层来丰富输入图像的通道信息,
得到输出的特 征图为F2.2;
步骤2.3, 将SimAM注意力模块嵌入到YOLO v4主干网络的残差体模块中, 形成新的
Resblock_body_AM模块; 其结构为: 输入特征F2.2首先经过3 ×3卷积层收缩尺度; 然后分别
通过2个大小为1 ×1卷积层分割通道数, 得到特征图F2.3.1和F2.3.2; 再将F2.3.2输入残差块,
F2.3.2在残差块中有序地 经过大小为1 ×1和3×3的卷积层处理并将处理结果与自身相 加, 残
差块将重复堆叠n次, 得到特 征图F2.3.3, 如公式(3)所示:
F2.3.3=(F2.3.2+φ3(φ1(F2.3.2)))n#(3);
其中φ1和φ3分别为大小为1 ×1和3×3的卷积层; 之后1 ×1卷积层对特征图F2.3.3进行
空间维度整合; 整合后的特征图与F2.3.1拼接, 再用以1 ×1卷积层进行通道维度整合; 最后经
过SimAM注意力机制激发重要特征, 得到Resblock_body_AM模块输出特征图F2.3, 如公式(4)
所示:
F2.3= ψ(φ1(Cat(F2.3.1,φ1(F2.3.3)))))#(4);
其中φ1为大小为1 ×1的卷积层, Cat为 拼接函数, ψ为注意力机制函数;
步骤2.4, 反复堆叠Resbl ock_body_AM模块5次, 获得输出 特征图P1、 P2、 P3、 P4、 P5;
步骤三, 构建特 征融合网络;
步骤3.1, 将特征图P5输入大小为1 ×1、 3×3、 1×1的卷积组, 为空间金字塔池化调整通
道数, 得到特 征图F3.1;
步骤3.2, 使用空间金字塔池化模块增大特征 图F3.1的感受野, 其结构为: 将F3.1分别通
过大小为5 ×5、 9×9、 13×13的最大池化层, 再将池化结果进行通道拼接, 得到特征图F3.2.1,权 利 要 求 书 1/3 页
2
CN 115050021 A
2如公式(5)所示:
F3.2.1=Cat( τ5(F3.1), τ9(F3.1), τ13(F3.1))#(5);
其中τ5、 τ9、 τ13分别为大小为5 ×5、 9×9、 13×13的最大池化层, C at为拼接函数; 再将特
征图F3.2.1输入大小为1 ×1、 3×3、 1×1的卷积组调整通道数, 得到 输出特征图F3.2;
步骤3.3, 将特征图F3.2经过上采样层, 得到特征图F3.3.1; 再将特征图P4经过大小为1 ×1
的卷积层调整通道数, 得到特征图F3.3.2; 将特征图F3.3.1与特征图F3.3.2拼接, 再经过由5个大
小分别为 1×1、 3×3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息, 得到特征图
F3.3, 如公式(6)所示:
F3.3=Φ5(Cat(up(F3.2),φ1(P4)))#(6);
其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组, up为上采样层, φ1为大小
为1×1的卷积层, Cat为 拼接函数;
步骤3.4, 将特征图F3.3经过上采样层, 得到特征图F3.4.1; 再将特征图P3经过大小为1 ×1
的卷积层调整通道数, 得到特征图F3.4.2; 将特征图F3.4.2与特征图F3.4.1拼接, 再经过由5个大
小分别为 1×1、 3×3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息, 得到特征图
F3.4, 如公式(7)所示:
F3.4=Φ5(Cat(up(F3.3),φ1(P3)))#(7);
其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组, up为上采样层, φ1为大小
为1×1的卷积层, Cat为 拼接函数;
步骤3.5, 将特征图F3.4经过下采样层, 得到特征图F3.5.1; 再分别对特征图F3.3、 F3.5.1、
F3.3.2施加权重ω0、 ω1、 ω2; 将处理后的3个特征图相加, 再经过由5个大小分别为1 ×1、 3×
3、 1×1、 3×3、 1×1的卷积层组成的卷积组来整合融合信息, 得到特征图F3.5如公式(8)所
示:
F3.5=Φ5(ω0*F3.3+ω1*down(F3.4)+ω2*F3.3.2)#(8);
其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组, do wn为下采样层;
步骤3.6, 将特征图F3.5经过下采样层, 得到特征图F3.6.1; 将特征图F3.6.1与特征图F3.2拼
接, 再经过由5个大小分别 为1×1、 3×3、 1×1、 3×3、 1×1的卷积层 组成的卷积组来整合融
合信息, 得到特 征图F3.6, 如公式(9)所示:
F3.6=Φ5(Cat(down(F3.5),F3.2))#(9);
其中Φ5为大小分别是1 ×1、 3×3、 1×1、 3×3、 1×1的卷积组, do wn为下采样层;
步骤四, 预测目标与损失传递;
步骤4.1, 模型检测器由1个大小为3 ×3的卷积层和1个大小为1 ×1的卷积核组成, 将特
征图F3.6、 F3.5、 F3.4输入3个对应尺度的检测器预测葡萄的空间位置, 得到最终预测特征图
Out1、 Out2、 Out3;
步骤4.2, 使用BCE loss和CIoU loss函数计算预测特征图Out1、 Out2、 Out3与真实值之
间的置信度、 分类、 定位损失, 其中置信度损失如公式(10)所示:
权 利 要 求 书 2/3 页
3
CN 115050021 A
3
专利 基于改进YOLOv4的非结构环境下葡萄识别方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:37:41上传分享