专利基于散乱点云交叉注意学习的三维场景运动趋势估计方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211212144.4 (22)申请日 2022.09.30 (71)申请人燕山大学地址 066004 河北省秦皇岛市海港区河北大街438号 (72)发明人林洪彬　关勃然　彭秀平　魏佳宁　陈泽宇　 (74)专利代理机构石家庄众志华清知识产权事务所(特殊普通合伙) 13123 专利代理师张建 (51)Int.Cl. G06T 17/00(2006.01) G06T 7/20(2017.01) G06V 10/74(2022.01) G06V 10/80(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于散乱点云交叉注意学习的三维场景运动趋势估计方法 (57)摘要本发明公开了基于散乱点云交叉注意学习的三维场景运动趋势估计方法，涉及深度学习和三维点云场景理解领域，以三维场景的运动趋势估计为目标，该网络模型在利用卷积神经网络提取前后帧点云特征的基础上，通过构建关联特征提取模块，捕捉前后帧点云间的联合信息，以提升点云特征刻画的丰富度；通过构建三维场景运动趋势的校准模块，在初步得到点云运动趋势后进行微调，进一步提高三维场景运动趋势估计的精度和可靠性。权利要求书1页说明书4页附图1页 CN 115496859 A 2022.12.20 CN 115496859 A 1.基于散乱点云交叉注意学习的三维场景运动趋势估计方法，其特征在于，该方法内容包括以下步骤：步骤一：分别对输入的第一帧点云X、第二帧点云Y使用邻近算法(KNN)寻找近邻点，获取各点的邻近位置信息(Gra gh)；步骤二：将获取的邻近位置信息(Gragh)输入多层卷积网络，提取多层点云特征向量 Fx、 Fy；步骤三：将多层点云特征向量连接，输入一维卷积网络进行特征聚合，得到新的点云特征向量Fx、 Fy，这样得到的特征信息既包含全局特征，也能很好的捕获点云的局部特征；步骤四：将点云特征向量Fx、 Fy输入关联特征提取模块中，输出新的点云特征向量将得到的新的点云特征向量与Fx、 Fy相加，得到最终的两帧点云的特征；步骤五：基于两帧点云的特征，通过Sinkhorn算法计算得到点云X中各点与点云Y中各点为对应点的权重(w)；步骤六：根据上步得到的权重(w)计算点云X中各点的运动向量(fl ow)；步骤七：将上步得到的运动向量(flow)与点云X的邻近位置信息(Gragh)输入校准模块，进而得到估计点云运动趋势。 2.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法，其特征在于，所述校准模块包括该模块包括三个二维卷积层和一个线性层。 3.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法，其特征在于，在步骤4中的将点云特征输入到关联特征提取模块中捕捉点云间关联信息。 4.根据权利要求1所述的基于散乱点云交叉注意学习的三维场景运动趋势估计方法，其特征在于：在初步得到点云的运动向量后，将运动向量(flow)与点云X的邻近位置信息 (Gragh)输入校准模块，根据点云间位置关系对运动向量进行微调。权　利　要　求　书 1/1 页 2 CN 115496859 A 2基于散乱点云交叉注意学习的三维场景运动趋势估计方法技术领域 [0001]本发明涉及深度学习和三维点云场景理解领域，特别涉及基于散乱点云交叉注意学习的三维场景运动趋势估计方法。背景技术 [0002]点云是指在相同参考坐标系下表示目标物体表面特征及空间分布的点，包含了丰富的信息，可以是三维坐标、颜色、强度值、时间等等。近年来，随着深度相机、激光雷达等3D 扫描设备的普及，对三维点云数据的分析和研究得到了发展。作为一种紧凑的三维数据表示形式，点云能够保留三维空间原始的几何信息，在机器人导航、自动驾驶、增强现实、医疗保健等各领域中得到广泛应用。 [0003]场景理解是对观察到的三维动态场景进行感知、分析和解释的过程，通常是实时的。这个过程主要是将来自感知环境的传感器的信号信息与人类用来理解场景的模型进行匹配。基于三维点云数据的目标检测、分类、识别是当前解决场景理解的主要技术，而在动态三维场景例如自动驾驶中，点云的运动及其趋势是理解场景的关键。过去的三维场景运动估计方法主要基于二维输入特征，将光流估计方法扩展到立体或RGBD图像。随着点云研究技术的发展，近年来逐渐开始出现通过直接处理三维点云来估计物体运动趋势的方法，选取同一场景的连续两帧点云作为输入，使用深度神经网络分别提取两帧点云的特征，再将点云特征输入流嵌入层来估计点云运动趋势。这些方法使用端对端的方式直接估计点云运动，极具开创性并取得不错的效果，但仍存在一些问题：一方面，作为输入的两帧点云属于同一场景的不同时刻，其特征信息应具有关联和相似性，在使用深度学习网络对输入的点云提取特征信息时，这些方法只是对两帧点云分别进行处理，而没有考虑两点云间的特征关联信息，影响后续步骤的运动估计准确度；另一方面，邻近位置的点云其运动应具有相似性，传统方法在估计点云的运动趋势后，没有考虑邻近位置点云运动的相互关系，导致最终的估计结果误差较高。 [0004]注意力(Attention)机制由Bengio团队与2014年提出并在近年广泛的应用在深度学习中的各个领域，例如在计算机视觉方向用于捕捉图像上的感受野，或者自然语言处理 (NLP)中用于定位关键特征。 2017年，谷歌机器翻译团队提出基于Transformer的注意力机制，抛弃了传统的卷积神经网络(CNN)和循环神经网络(RNN)，整个网络结构完全是由自我注意力(self ‑Attenion)和前馈神经网络(Feed Forward Neural Network)组成。 202 1年，贾佳亚等提出一种用于3D点云的Tr ansformer结构，在点云分类和语义分割任务上取得优异的效果。点云本质上是嵌入度量空间的集合，具有无序性和稀疏性，与语言或图像处理相比， Transformer更适合用于点云处理。发明内容 [0005]针对上述的不足，本申请提供了基于散乱点云交叉注意学习的三维场景运动趋势估计方法，该方法能够更准确更有效的估计点云运动趋势。说　明　书 1/4 页 3 CN 115496859 A 3

专利 基于散乱点云交叉注意学习的三维场景运动趋势估计方法

专利基于散乱点云交叉注意学习的三维场景运动趋势估计方法