说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210659670.9 (22)申请日 2022.06.13 (71)申请人 东南大学 地址 211100 江苏省南京市江宁区东 南大 学路2号 (72)发明人 戚云鹏 孙畅 徐睿哲 杜松林  (74)专利代理 机构 北京德崇智捷知识产权代理 有限公司 1 1467 专利代理师 曹婷 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于注意力机制和图像特征融合的3D点云 目标检测方法 (57)摘要 本发明公开了一种基于注意力机制和图像 特征融合的3D点云目标检测方法, 涉及计算机视 觉技术领域, 解决了3D目标检测算法不够准确的 技术问题, 其技术方案要点是以图像数据和激光 点云数据作为输入, 分别输入图像特征提取网络 和点云特征编码器, 在图像特征提取骨干网络中 基于注意力机制学习重要信息, 然后将提取到的 特征图与点 云伪图像进行特征融合。 最后将生成 的融合特征送入 特征金字塔, 并将最终的融合特 征图作为2D ‑3D检测器的输入, 预测得到的2D、 3D 框坐标值, 然后经过非极大值抑制和数据转换来 完成2D、 3D框回归以得到最终结果。 本发明利用 基于注意力机制的图像特征提取网络弥补了点 云信息的缺陷, 提高了 3D目标检测的精度。 权利要求书1页 说明书5页 附图3页 CN 115115917 A 2022.09.27 CN 115115917 A 1.一种基于注意力机制和图像特 征融合的3D点云目标检测方法, 其特 征在于, 包括: S1: 对3D目标检测数据集中的RGB图像和点云数据进行 数据增强; S2: 将增强后的RGB图像输入到图像特征提取网络, 所述图像特征提取网络结合注意力 机制对增强后的RGB图像进行 特征提取, 得到表示图像信息的第一特 征; S3: 将增强后的点云数据输入到点云特征编码器进行特征提取, 得到点云特征, 将点云 特征处理成伪图像; S4: 将所述第 一特征和所述伪图像在通道维度进行拼接后输入到特征金字塔进行特征 提取, 得到融合特 征; S5: 对所述融合特征进行2D检测框和3D检测框的预测, 得到预测结果, 对预测结果进行 数据转换与指标分析, 得到最终的3D目标检测结果。 2.如权利要求1所述的3D点云目标检测方法, 其特征在于, 所述图像特征提取网络主干 为残差结构, 包括依次设置的堆叠下采样层、 注意力机制模块和SPPF模块; 所述注 意力机制 模块基于 CBAM注意力机制和坐标注意力机制。 3.如权利要求1所述的3D点云目标检测方法, 其特征在于, 所述点云特征编码器通过基 于PointPillars的点云特 征进行特征提取。 4.如权利要求1所述的3D点云目标检测方法, 其特征在于, 所述RGB图像的数据增 强包 括HSV色调变换、 仿射变换和马赛克操作。权 利 要 求 书 1/1 页 2 CN 115115917 A 2基于注意力机制和图像特征融合的3D 点云目标检测方法 技术领域 [0001]本申请涉及计算机视觉技术领域, 尤其涉及一种基于注意力机制和图像特征融合 的3D点云目标检测方法。 背景技术 [0002]目标检测作为计算机视觉中的重要任务之一, 是人工智能体系中一个具有重要研 究价值的技术分支, 它的主要任务是从图像中精确且高效地识别、 定位出大量预定义类别 的物体实例, 并给出每个目标的边界框。 近年来,随着深度学习的发展,3D图像的目标检测 研究取得了巨大的突破。 与 2D目标检测相比,3D目标检测结合了深度信息,能够提供目标的 位置、 方向和大小等空间场景信息,在自动驾驶和机器人 领域发展迅速 。 [0003]3D视觉中的点云数据提供了精确的结构和深度信息, 但是却具有稀疏性, 无序性 和对噪声敏感等缺点, 所以二维检测中研究成熟的CNN不能直接用于处理点云。 此外, 点云 的表示形式直接影响模型的性能, 对于目标检测带来了巨大的挑战。 根据输入数据的类型, 3D目标检测框架可分为 三大类: [0004](1)基于单目相机的3D目标检测方法: 单目摄像机采集的RGB图像含有丰富的纹理 信息和高分辨率, 但是缺少深度信息, 所以2D目标检测无法提供感知环境所需要的全部信 息。 由于没有深度信息可用, 大多数方法首先检测2D候选对象, 然后使用 神经网络、 几何约 束或3D模 型匹配预测包含对象的3D边界框。 3DOP在网络结构上扩展FastR ‑CNN,在最后一层 卷积层增加一个上下文分支和方向回归损失以联合学习目标的位置和方向。 该工作考虑了 深度图像, 以在类似的框架中生成建议。 Mono3D模 型只使用单目图像, 略微改善了使用深度 图像获得的性能, 利用上下文、 语义、 手工设计的形状特征和位置先验, 将每个候选框投射 到图像中,对其进行评分。 由于图像特征缺 乏深度信息, 降低了检测和定位的准确性, 特别 是对遥远和遮挡的物体, 以及对光线和天气条件的敏感性, 限制了这些 方法在白天的使用。 [0005](2)基于点云的3D目标检测方法: 激光雷达采集的点云数据是自动驾驶汽车获取 周围场景信息的重要来源, 可以在夜间等场景产生精确的深度估计, 能提高自动驾驶汽车 的安全性。 但是, 点云的稀疏性、 无序性和局部敏感性, 计算量大等问题造成了它在实际应 用方面上的困难。 PointNet可以直接处理点云数据,该结构提出空间变换网络解决旋转 问 题及应用最大池化解决无序性问题。 分割的3DP CLs用作输入, 以执行对象分类和零件分割。 该网络使用全连接层执行逐点转换, 并通过最大池层聚合全局特征, 确保点顺序的独立性。 VoxelNet提出把点云在空间中划分成体素, 然后对每个体素多次使用PointNet的结构 (MLP, maxpooling, concat), 之后使用3DCNN的卷积操作获得稀疏体素之间的交互, 最后加 上RPN网络来做3D物体检测任务。 在自动驾驶等应用中, 3D场景中的点云数据中垂 直方向(z 轴)相对另外两个轴的信息量更低, 基于此, PointPillars在xy平面上划分网格, 然后把垂 直方向的点云压 到网格上, 使用2DCN N方法进行物体 检测。 [0006](3)基于融合信息的3D目标检测方法: 不同类型的传感器各有优劣,单一传感器无 法实现精确高效的检测。 例如图像特征 的优点是含有丰富的纹理信息和高分辨率, 但缺点说 明 书 1/5 页 3 CN 115115917 A 3

.PDF文档 专利 基于注意力机制和图像特征融合的3D点云目标检测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注意力机制和图像特征融合的3D点云目标检测方法 第 1 页 专利 基于注意力机制和图像特征融合的3D点云目标检测方法 第 2 页 专利 基于注意力机制和图像特征融合的3D点云目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。