专利基于空间金字塔池化的实时语义分割方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111655311.8 (22)申请日 2021.12.3 0 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人柯逍　蒋培龙　曾淦雄　 (74)专利代理机构福州元创专利商标代理有限公司 35100 代理人张灯灿　蔡学俊 (51)Int.Cl. G06V 10/26(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于空间金字塔池化的实时语义分割方法及系统 (57)摘要本发明涉及一种基于空间金字塔池化的实时语义分割方法及系统，该方法包括以下步骤：步骤S1：获取城市街景数据集Cityscapes并进行预处理；步骤S2：对步骤S1得到的数据集进行离线数据增强以增加数据集的多样性；步骤S3：构建基于空间金字塔池化的实时语义分割网络 LSPPNet；步骤S4：利用步骤S2得到的数据集对 LSPPNet神经网络模型进行训练；步骤S5：将自动驾驶场景中采集到的图像进行预处理，然后输入到LSPPNet神经网络模型，得到图像语义分割结果。该方法及系统有利于提高图像语义分割的准确性和时效性。权利要求书2页说明书6页附图2页 CN 114419316 A 2022.04.29 CN 114419316 A 1.一种基于空间金字塔池化的实时语义分割方法，其特征在于，包括以下步骤：步骤S1：获取城市街景数据集Cityscapes并进行预处理；步骤S2：对步骤S1得到的数据集进行离线数据增强以增加数据集的多样性；步骤S3：构建基于空间金字塔池化的实时语义分割网络LS PPNet；步骤S4：利用步骤S2得到的数据集对LS PPNet神经网络模型进行训练；步骤S5：将自动驾驶场景中采集到的图像进行预处理，然后输入到LSPPNet神经网络模型，得到图像语义分割结果。 2.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S1具体包括以下步骤：步骤S11：从开源数据集网站cityscapes ‑dataset.com下载gt Fine_trainvalt est.zip 标签数据压缩文件和leftImg8bit_t rainvaltest.zip图像数据压缩文件；步骤S12：将步骤S11得到的两个压缩文件进行解压，整理并删除与语义分割任务不相关的标签文件。 3.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S2具体包括以下步骤：步骤S21：对步骤S1所得数据集中所有图片进行翻转变换，对应的标签图像相应发生改变，将进行翻转变换的图片加入新的数据集中；步骤S22：对步骤S1所得数据集中所有图片进行色彩抖动，对应的标签图像不发生改变，将进行颜色抖动的图片加入新的数据集中；步骤S23：对步骤S1所得数据集中所有图片进行平移变换，对应的标签图像相应发生改变，将进行平移变换的图片加入新的数据集中；步骤S24：对步骤S1所得数据集中所有图片进行对比度变换，对应的标签图像不发生改变，将进行对比度变换的图片加入新的数据集中；步骤S25：对步骤S1所得数据集中所有图片进行尺度变换，对应的标签图像相应发生改变，将进行尺度变换的图片加入新的数据集中。 4.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S3具体包括以下步骤：步骤S31：采用ResNet ‑18作为LSPPNet的编码器，其中ResNet ‑18的瓶颈层对输入图像做4倍下采样，接着除了第一阶段外ResNet ‑18在接下来的三个阶段中都对图像进行2倍下采样；步骤S32： ResNet ‑18的第一到第三阶段中通过跳跃连接保存下采样阶段的表示，并引入深监督模块对编码器的第四阶段输出的表示进行监督，减少编码阶段空间信息的丢失；步骤S33：将编码器第四阶段的输出结果输入到轻量级金字塔池化模块LSPPM中，以得到具备丰富多尺度信息的表示；步骤S34：将步骤S33得到的表示输入到级联的上采样路径中，结合步骤32的密集连接，利用快速上采样模块FUM对表示进行共计3次的2倍上采样，最终得到融合语义信息和空间信息的表示；步骤S35：将步骤S34得到表示通过双线性插值算法进行8倍上采样，并通过一个1 ×1卷积输出预测结果。权　利　要　求　书 1/2 页 2 CN 114419316 A 25.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S4具体包括以下步骤：步骤S41：对步骤S3构建的LS PPNet神经网络模型进行训练，并设定初始参数如下：初始学习率，即 ‑learning rate： 0.01；权值衰减，即 ‑weight decay： 0.0 005；动量，即‑momentum： 0.9；训练阶段采用多项式权值衰减作为学习率衰减策略，其中最小的学习率设置为 0.0001，衰减因子设置为0.9，而批大小根据训练服务器显存大小而定；步骤S42:模型最终损失函数为： LosSfinal＝Lossmain+α.Lossaux 其中， Lossfinal， Lossmain， Lossaux分别表示模型的最终损失、主体损失和辅助损失，其中 α 为辅助损失的权重，设置为0.4，损失函数采用交叉信息熵；步骤S43：训练阶段采用随机梯度下降方法作为优化器，计算卷积神经网络更新后的权重值、偏置值；步骤S44：对部分训练样本进行随机透视变换，并对标签文件做出相应变换，然后加入到模型的训练样本中参与训练；步骤S45：对部分训练样本进行随机位置的高斯模糊，相应标签文件不变，然后加入到模型的训练样本中参与训练；步骤S46：迭代到16 0000次后停止训练，保存训练好的模型。 6.根据权利要求1所述的基于空间金字塔池化的实时语义分割方法，其特征在于，所述步骤S5具体包括以下步骤：步骤S51：在自动驾驶场景中通过车载摄像头采集图像数据作为输入；步骤S52：将输入图像调整成2048 ×1024尺寸；步骤S53：将步骤S52得到的图像通过LS PPNet神经网络模型得到预测结果图；步骤S54：将步骤S53得到的预测结果图经过双线性插值算法缩放为原始输入尺寸，得到最终结果图。 7.一种基于空间金字塔池化的实时语义分割系统，其特征在于，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，能够实现如权利要求1 ‑6任一项所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 114419316 A 3

专利 基于空间金字塔池化的实时语义分割方法及系统

专利基于空间金字塔池化的实时语义分割方法及系统