专利基于隐式上下文学习的道路三维目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210555478.5 (22)申请日 2022.05.20 (71)申请人西安电子科技大学地址 710071 陕西省西安市太白南路2号 (72)发明人张强　赵世祥　杨欣朋　 (74)专利代理机构陕西电子工业专利中心 61205 专利代理师王品华 (51)Int.Cl. G06V 20/56(2022.01) G06V 20/58(2022.01) G06V 10/25(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称基于隐式上下文学习的道路三维目标检测方法 (57)摘要本发明公开了一种基于隐式上下文学习的道路三维目标检测方法，主要解决现有方法对距离雷达较远的稀疏点云目标和小目标检测精度低，且容易受背景噪声干扰的问题。其实现方案为：对点云数据体素化；搭建稀疏卷积网络；搭建由现有卷积神经网络和检测网络级联组成的区域建议网络RPN；构建隐式上下文学习模块和注意力融合模块，并与现有的检测网络级联组成 RCNN网络；构建由稀疏卷积网络、区域建议网络 RPN和RCNN网络组成三维目标检测网络；训练三维目标检测网络；将体素化的点云数据输入训练好的三维目标检测网络中，输出目标检测框，得到目标的具体位置和类别。本发明提高了稀疏点云目标和小目标的检测精度，降低了目标的误检率。权利要求书5页说明书11页附图9页 CN 114821508 A 2022.07.29 CN 114821508 A 1.一种基于隐式上下文学习的道路三维目标检测方法，其特征在于，包括如下步骤： (1)从KITTI数据集中选取3712个点云数据场景作为训练集，剩余3769个点云场景作为测试集； (2)对点云数据体素化：将点云所在空间划分成大小相同的体素，将点云数据按照其空间坐标分配至对应的体素中，根据点云的稀疏特性，体素中的大部分为不包含点云数据的空体素，其余小部分为包含点云数据的非空体素； (3)采用现有的稀疏卷积网络对非空体素特征进行提取，得到体素特征图，即先将体素特征图在深度维进行压缩，再将其深度维特征融合到通道维特征中，使体素特征图变为鸟瞰体素特征图，并将其转化为体素鸟瞰特征图； (4)选用现有由卷积神经网络和检测网络级联组成的区域建议网络RPN，通过其卷积神经网络提取体素鸟瞰特征图中的目标特征，得到包含多尺度目标信息的特征图，通过其检测网络获取特征图中的目标信息，预测得到用于对目标进行初始定位的建议框； (5)构建基于区域的卷积神经网络RCN N： (5a)建立隐式上下文学习模块： (5a1)搭建扩展网格点池化子模块：对建议框的尺寸乘以4个不同的扩展系数，得到4个不同尺寸的扩展子建议框，在原始建议框和4个扩展子建议框内分别均匀放置不同数量的网格点，对原始建议框内的体素特征进行网格点池化，并对每个扩展子建议框内的体素特征进行扩展网格点池化，将4个扩展子建议框所得网格点特征进行级联； (5a2)搭建一个由多头注意力组、全连接层组成的交叉注意力子模块，其中，多头注意力组由2个并联的注意力头组成，每个注意力头的输出特征由查询矩阵、键矩阵和值矩阵通过缩放点积公式计算得到； (5a3)将扩展网格点池化子模块和交叉注意力子模块级联，组成隐式上下文学习模块； (5b)搭建由四个卷积子网络构成的注意力融合模块，每个卷积子网络均包括2个卷积层、 2个批归一化层和1个非线性激活层，其中非线性激活层采用线性整流单元激活函数 ReLU； (5c)将隐式上下文学习模块、注意力融合模块和现有的检测网络级联，组成RCN N网络； (6)将现有的稀疏卷积网络、区域建议网络RPN和(5)构建的RCNN网络级联，组成三维目标检测网络； (7)训练三维目标检测网络：将体素化的点云数据输入到三维目标检测网络中，利用分类损失函数Lcls(p,c)、回归损失函数Lreg( δ,t)和置信度损失函数Lconf(pconf,IoU')分别计算三维目标检测网络的类别预测概率p与类别标签c的分类损失值losscls、回归预测结果δ与回归标签t的回归损失值 lossregr、置信度预测结果pconf与置信度标签IoU'的置信度损失值lossconf，通过初始学习率为0.003，训练轮次为80的Adam_onecycle优化器迭代更新网络的参数，直到网络的分类损失函数、回归损失函数和置信度损失函数收敛为止，得到训练好的网络模型； (8)对道路三维点云数据进行检测：采用与步骤(2)相同的方法，对待检测的点云数据进行体素化处理，将所得体素特征输入到训练好的三维目标检测网络中，输出轿车、行人和骑手这些不同目标的三维检测框。权　利　要　求　书 1/5 页 2 CN 114821508 A 22.根据权利要求1所述的方法，其特征在于，所述(2)中将点云所在空间划分成大小相同的体素，是按点云数据在空间中的分布范围[ ‑40,40],[0,70.4],[ ‑3,1]，将对应范围内的体素尺寸设置为[0.0 5,0.05,0.1]的大小进行划分。 3.根据权利要求1所述的方法，其特征在于，所述(3)中的稀疏卷积网络，包括8个子流形稀疏卷积层、 4个空间稀疏卷积层、 12个批归一化层和12个ReLU激活函数层，其结构依次为：输入层→第1子流形稀疏卷积层 →第1批归一化层 →第1ReLU激活函数层 →第2子流形稀疏卷积层 →第2批归一化层 →第2ReLU激活函数层 →第1空间稀疏卷积层 →第3批归一化层→第3ReLU激活函数层 →第3子流形稀疏卷积层 →第4批归一化层 →第4ReLU激活函数层 →第4子流形稀疏卷积层 →第5批归一化层 →第5ReLU激活函数层 →第2空间稀疏卷积层 → 第6批归一化层 →第6ReLU激活函数层 →第5子流形稀疏卷积层 →第7批归一化层 →第7ReLU 激活函数层 →第6子流形稀疏卷积层 →第8批归一化层 →第8ReLU激活函数层 →第3空间稀疏卷积层 →第9批归一化层 →第9ReLU激活函数层 →第7子流形稀疏卷积层 →第10批归一化层→第10ReLU激活函数层 →第8子流形稀疏卷积层 →第11批归一化层 →第11ReLU激活函数层→第4空间稀疏卷积层→第12批归一化层→第12ReLU激活函数层 →输出层；每个子流形稀疏卷积层的卷积核大小为3，步长为1，填充为1；每个空间稀疏卷积层的卷积核大小为3，步长为2，填充为2；稀疏卷积网络中第1子流形稀疏卷积层到第2子流形稀疏卷积层中卷积核的个数均为 16；第1空间稀疏卷积层到第4子流形稀疏卷积层中卷积核的个数均为32；第2空间稀疏卷积层到第8子流形稀疏卷积层中卷积核的个数均为64；第4空间稀疏卷积层中卷积核的个数为128。 4.根据权利要求1所述的方法，其特征在于，所述(4)中的卷积神经网络和检测网络结构如下：所述卷积神经网络，由两个级联的卷积子网络组成，每个卷积子网络均包含5个卷积层、 1个转置卷积层、 6个批归一化层和6个ReLU激活函数层，其中：第1个卷积子网络的结构依次为：第1卷积层 →第1批归一化层 →第1ReLU激活函数层 →第2卷积层 →第2批归一化层 →第 2ReLU激活函数层 →第3卷积层 →第3批归一化层 →第3ReLU激活函数层 →第4卷积层 →第4 批归一化层 →第4ReLU激活函数层 →第5卷积层 →第5批归一化层 →第5ReLU激活函数层 → 第1转置卷积层 →第6批归一化层 →第6ReLU激活函数层；每个卷积层和转置卷积层的步长均设置为1，所有卷积核大小均设置为3；所述第2个卷积子网络的结构依次为：第6卷积层→第7批归一化层 →第7ReLU激活函数层 →第7卷积层 →第8批归一化层 →第 8ReLU激活函数层 →第8卷积层→第9批归一化层 →第9ReLU激活函数层 →第9卷积层 →第10 批归一化层 →第10ReLU激活函数层 →第10卷积层 →第11批归一化层 →第11ReLU激活函数层→第2转置卷积层 →第12批归一化层 →第12ReLU激活函数层；第6卷积层和第2转置卷积层的步长均设置为2，其余卷积层的步长均设置为1，所有卷积核的大小均设置为3 。所述检测网络，其由分类预测、回归预测、旋转角度范围预测这三个分支并联组成，每权　利　要　求　书 2/5 页 3 CN 114821508 A 3

专利 基于隐式上下文学习的道路三维目标检测方法

专利基于隐式上下文学习的道路三维目标检测方法