专利基于激光雷达点云的密集人群三维感知算法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111652840.2 (22)申请日 2021.12.3 0 (71)申请人上海科技大学地址 201210 上海市浦东新区华夏中路393 号 (72)发明人马月昕　 (74)专利代理机构上海申汇专利代理有限公司 31001 代理人翁若莹　柏子雵 (51)Int.Cl. G06V 20/52(2022.01) G06V 40/10(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/774(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称基于激光雷达点云的密集人群三维感知算法 (57)摘要本发明提出了一种基于激光雷达点云的密集人群三维感知算法。本发明提供了一个大规模的以行人为主的密集场景数据集，该数据集可以用于不同的任务，比如只基于图像或只基于点云场景的行人检测、追踪以及图像和点云模式融合下的多种任务。本发明对于以上所有任务给出了基准模型，并根据行人特点提出了一种新的算法。本发明提供了一种基于Voxel ‑CenterPoint 的主干网络，并额外提出了密度感知层次热图聚合模块，利用注意力机制使网络模型学习个体分布，并根据行人密度分布特点生成多尺度的预测热图，实现了局部上聚集个体的区分以及全局上不同密度分布的感知和处理。权利要求书2页说明书5页附图3页 CN 114359829 A 2022.04.15 CN 114359829 A 1.一种基于激光雷达点云的密集人群三维感知算法，其特征在于，包括以下步骤：步骤1：获取激光雷达点云数据作为输入，并进行体素分区，将三维空间划分为等空间的三维体素网格；设激光雷达点云数据包含范围分别为沿着 X轴、 Y轴、 Z轴的Wrange、 Hrange、 Drange，且定义每个三维体素网格的大小为Vw、 Vh、 Vd，即可得到三维体素网格沿着X轴、 Y轴、 Z轴的数量为步骤2：将激光雷达点云数据中的点根据步骤1中划分的三维体素网格进行分组，将三维体素网格中数量超过T的点降采样为T个点；步骤3：体素特征编码，包括以下步骤：步骤301：取三维体素网格中所有点的平均值表达当前三维体素网格，作为体素特征，则任意一个三维体素网格的体素特征表示为：其中，三维体素网格中任意第i个点表示为Pi(xi， yi， zi， ri)，其中， (xi， yi， zi)表示第i个点的三维空间坐标， ri表示点的反射率大小；步骤302：对于三维体素网格中的每个点，采用其对中心的偏移量增加该点的维度，则Pi (xi， yi， zi， ri)增加维度后表示为Pi(xi， yi， zi， ri， xi‑vx， yi‑vy， zi‑vz)；步骤4：输入W ×H×D个体素特征和对应索引，其中，索引为经过步骤1体素分区后三维体素网格的位置，使用稀疏卷积方式对非空三维体素网格进行特征的高维映射得到特征图 M∈RH×W×D×L，其中， L表示特征通道个数；特征图M经过N次稀疏卷积和N次下采样操作，并合并最后两个维度作为新的特征通道数得到地图视角下的特征图 M ′∈ RH /(2×N)×W/(2×N)×(D/(2xN) ×L′)作为下一步的输入，其中， C＝D/(2 ×N)×L′为将后两个维度合并的通道数， L ′为经过稀疏卷积后新的通道数；步骤5：特征图M ′输入特征提取模型后，经过十次步长为1的卷积层，其中第1、 6次通道数分别减半和加倍，最终通道数不变，获得存储在第5、 10次的卷积层的特征结果F1和F2；特征提取模型再将特征结果F1和特征结果F2分别进行一次步长为2的反卷积操作，其中，特征结果F1的通道数进行加倍，得到特征结果F1 ′和F2′；将特征结果F1 ′和特征结果F2 ′根据通道维度结合在一起，得到特征图；步骤6：步骤5得到的特征图经过两次卷积，调整通道数C ′＝C/8后，引入空间注意力机制模型，计算查询值Q和关键值K的点积，并应用softmax函数来获得注意力权重计算得到数值V的加权和作为空间注意力机制模型的输出 output＝V ·attention(Q， K)；由步骤5得到的特征图先经过两次卷积再经过一次通道数为C ′的卷积操作得到， Q∈RH ×W×C′， K∈RC′ ×H×W；数值V是由步骤5得到的特征图先经过两次卷积再经过一次通道数为C的卷积得到，并将后两个维度进行合并，即V∈RC×(H×W)；步骤7：对空间注意力机制模型生成的特征图output分别进行上、下采样，其中：经过上权　利　要　求　书 1/2 页 2 CN 114359829 A 2采样的图像大小为原始特征图的2 倍，对高密度人群中相距很近的人进行一一区分；经过下采样的图像为原始特征图大小的1/2；步骤8：最终人物目标检测分为热力图分类部分和回归部分，其中：对于热力图的预测，目的是在任何检测目标的中心位置生成一个热力图峰值；在训练的过程中，热力图的峰值由标注的实际检测框的三维中心投影到地图视角中生成的二维高斯曲线作为目标，高斯半径σ 设置为： σ ＝max(f(w ×h)， τ ) 其中， τ ＝1是最小的高斯半径； w、 h为实际检测框的宽和高； f()是椭圆半径方程；回归的参数包括：目标物体的尺寸s∈R3；二维中位置和真实值的误差o∈R2；离地高度 hg∈R；物体的朝向以及速度： (si n( α )， cos( α ) )∈R2， α 表示预测的朝向角度。 2.如权利要求1所述的一种基于激光雷达点云的密集人群三维感知算法，其特征在于，步骤5中，使用SE COND算法作为所述特征提取模型。 3.如权利要求1所述的一种基于激光雷达点云的密集人群三维感知算法，其特征在于，步骤8之后还包括：步骤9：根据预测的热力图、回归图与真实值进行比较和误差计算：其中热图的计算采用其中，为预测的热力图中分数， It为真实分数；回归位置的误差采用真实与预测的绝对值平均误差。权　利　要　求　书 2/2 页 3 CN 114359829 A 3

专利 基于激光雷达点云的密集人群三维感知算法

专利基于激光雷达点云的密集人群三维感知算法