专利基于注意力机制和图像特征融合的3D点云目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210659670.9 (22)申请日 2022.06.13 (71)申请人东南大学地址 211100 江苏省南京市江宁区东南大学路2号 (72)发明人戚云鹏　孙畅　徐睿哲　杜松林　 (74)专利代理机构北京德崇智捷知识产权代理有限公司 1 1467 专利代理师曹婷 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于注意力机制和图像特征融合的3D点云目标检测方法 (57)摘要本发明公开了一种基于注意力机制和图像特征融合的3D点云目标检测方法，涉及计算机视觉技术领域，解决了3D目标检测算法不够准确的技术问题，其技术方案要点是以图像数据和激光点云数据作为输入，分别输入图像特征提取网络和点云特征编码器，在图像特征提取骨干网络中基于注意力机制学习重要信息，然后将提取到的特征图与点云伪图像进行特征融合。最后将生成的融合特征送入特征金字塔，并将最终的融合特征图作为2D ‑3D检测器的输入，预测得到的2D、 3D 框坐标值，然后经过非极大值抑制和数据转换来完成2D、 3D框回归以得到最终结果。本发明利用基于注意力机制的图像特征提取网络弥补了点云信息的缺陷，提高了 3D目标检测的精度。权利要求书1页说明书5页附图3页 CN 115115917 A 2022.09.27 CN 115115917 A 1.一种基于注意力机制和图像特征融合的3D点云目标检测方法，其特征在于，包括： S1：对3D目标检测数据集中的RGB图像和点云数据进行数据增强； S2：将增强后的RGB图像输入到图像特征提取网络，所述图像特征提取网络结合注意力机制对增强后的RGB图像进行特征提取，得到表示图像信息的第一特征； S3：将增强后的点云数据输入到点云特征编码器进行特征提取，得到点云特征，将点云特征处理成伪图像； S4：将所述第一特征和所述伪图像在通道维度进行拼接后输入到特征金字塔进行特征提取，得到融合特征； S5：对所述融合特征进行2D检测框和3D检测框的预测，得到预测结果，对预测结果进行数据转换与指标分析，得到最终的3D目标检测结果。 2.如权利要求1所述的3D点云目标检测方法，其特征在于，所述图像特征提取网络主干为残差结构，包括依次设置的堆叠下采样层、注意力机制模块和SPPF模块；所述注意力机制模块基于 CBAM注意力机制和坐标注意力机制。 3.如权利要求1所述的3D点云目标检测方法，其特征在于，所述点云特征编码器通过基于PointPillars的点云特征进行特征提取。 4.如权利要求1所述的3D点云目标检测方法，其特征在于，所述RGB图像的数据增强包括HSV色调变换、仿射变换和马赛克操作。权　利　要　求　书 1/1 页 2 CN 115115917 A 2基于注意力机制和图像特征融合的3D 点云目标检测方法技术领域 [0001]本申请涉及计算机视觉技术领域，尤其涉及一种基于注意力机制和图像特征融合的3D点云目标检测方法。背景技术 [0002]目标检测作为计算机视觉中的重要任务之一，是人工智能体系中一个具有重要研究价值的技术分支，它的主要任务是从图像中精确且高效地识别、定位出大量预定义类别的物体实例，并给出每个目标的边界框。近年来,随着深度学习的发展,3D图像的目标检测研究取得了巨大的突破。与 2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的位置、方向和大小等空间场景信息,在自动驾驶和机器人领域发展迅速。 [0003]3D视觉中的点云数据提供了精确的结构和深度信息，但是却具有稀疏性，无序性和对噪声敏感等缺点，所以二维检测中研究成熟的CNN不能直接用于处理点云。此外，点云的表示形式直接影响模型的性能，对于目标检测带来了巨大的挑战。根据输入数据的类型， 3D目标检测框架可分为三大类： [0004](1)基于单目相机的3D目标检测方法：单目摄像机采集的RGB图像含有丰富的纹理信息和高分辨率，但是缺少深度信息，所以2D目标检测无法提供感知环境所需要的全部信息。由于没有深度信息可用，大多数方法首先检测2D候选对象，然后使用神经网络、几何约束或3D模型匹配预测包含对象的3D边界框。 3DOP在网络结构上扩展FastR ‑CNN,在最后一层卷积层增加一个上下文分支和方向回归损失以联合学习目标的位置和方向。该工作考虑了深度图像，以在类似的框架中生成建议。 Mono3D模型只使用单目图像，略微改善了使用深度图像获得的性能，利用上下文、语义、手工设计的形状特征和位置先验，将每个候选框投射到图像中,对其进行评分。由于图像特征缺乏深度信息，降低了检测和定位的准确性，特别是对遥远和遮挡的物体，以及对光线和天气条件的敏感性，限制了这些方法在白天的使用。 [0005](2)基于点云的3D目标检测方法：激光雷达采集的点云数据是自动驾驶汽车获取周围场景信息的重要来源，可以在夜间等场景产生精确的深度估计，能提高自动驾驶汽车的安全性。但是，点云的稀疏性、无序性和局部敏感性，计算量大等问题造成了它在实际应用方面上的困难。 PointNet可以直接处理点云数据,该结构提出空间变换网络解决旋转问题及应用最大池化解决无序性问题。分割的3DP CLs用作输入，以执行对象分类和零件分割。该网络使用全连接层执行逐点转换，并通过最大池层聚合全局特征，确保点顺序的独立性。 VoxelNet提出把点云在空间中划分成体素，然后对每个体素多次使用PointNet的结构 (MLP， maxpooling， concat)，之后使用3DCNN的卷积操作获得稀疏体素之间的交互，最后加上RPN网络来做3D物体检测任务。在自动驾驶等应用中， 3D场景中的点云数据中垂直方向(z 轴)相对另外两个轴的信息量更低，基于此， PointPillars在xy平面上划分网格，然后把垂直方向的点云压到网格上，使用2DCN N方法进行物体检测。 [0006](3)基于融合信息的3D目标检测方法：不同类型的传感器各有优劣,单一传感器无法实现精确高效的检测。例如图像特征的优点是含有丰富的纹理信息和高分辨率，但缺点说　明　书 1/5 页 3 CN 115115917 A 3

专利 基于注意力机制和图像特征融合的3D点云目标检测方法

专利基于注意力机制和图像特征融合的3D点云目标检测方法