专利一种基于通道注意力与多尺度融合的三维语义分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210418602.3 (22)申请日 2022.04.20 (71)申请人湘潭大学地址 411105 湖南省湘潭市雨湖区湘潭大学 (72)发明人张莹　孙月　张露露　王玉　 (51)Int.Cl. G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于通道注意力与多尺度融合的三维语义分割方法 (57)摘要本发明属于三维点云数据处理技术领域，公开了一种基于通道注意力和多尺度融合的三维点云语义分割方法。首先读取待分割的点云数据，对其进行预处理后输入分割网络。然后依次经过四个由编码器和通道注意力层组成的模块，其中编码器包括下采样层、分组层和位置自适应卷积。接着使用多尺度卷积上下文模块提取点云上下文信息，最后依次通过四个由上采样层和单元PointNet网络组成的解码器。最终的分割结果通过一个大小为k(类别数)的全连接层得到。本发明不仅充分利用了点云的位置信息，还引入通道注意力层在通道维度上对点云特征进行重标定，更多地关注对分割任务有用的通道信息，并进一步提出多尺度卷积上下文模块，通过采用具有相同膨胀率但不同内核大小的空洞卷积并行捕获不同尺度的特征，从而改善分割结果。权利要求书3页说明书6页附图3页 CN 114743007 A 2022.07.12 CN 114743007 A 1.一种基于通道注意力和多尺度融合的三维点云语义分割方法，其特征在于，包括以下步骤：步骤1、读取和预处理点云数据；步骤2、将点云数据经过由下采样层、分组层和位置自适应卷积组成的编码器，主要负责上采样和提取特征；步骤3、利用通道注意力层对点云特征进行重标定，对通道特征信息间的相关性进行建模，通过对不同的特征学习其权重值来改变其在整体特征表达中对应的比重；步骤4、将步骤2至步骤3 重复4次，逐层下采样提取点云特征。步骤5、将最后一个通道注意力层输出的特征向量输入到多尺度卷积上下文模块，该模块采用膨胀率相同而卷积核大小不同的空洞卷积并行地对特征进行采样，逐步增大感受野范围，弥补丢失的细节信息。步骤6、将多尺度卷积上下文模块输出的特征向量经过由上采样层和单元PointNet网络组成的解码器，主要负责下采样和特征解码，并通过跳跃连接将编码器的输入作为解码器的另一个输入。步骤7、将步骤6 重复4次，逐层上采样解码点云特征。步骤8、通过一个大小为k(类别数)的全连接层得到k个类的分类分数，进而得到分割结果。 2.如权利要求1所述的方法，其特征在于，步骤2中，所述位置自适应卷积首先定义了一个由权重矩阵组成的权重库，然后计分网络(ScoreNet)根据点位置学习系数向量来组合权重矩阵，最后动态内核通过结合权重矩阵及其相关位置自适应系数生成。将所得的卷积核作用于输入特征后通过最大池化得到输出特征。详细过程如下：权重库B＝{Bm|m＝1，…， M}由随机初始化生成，其中每个代表一个权重矩阵， M表示矩阵的数量。 ScoreNet负责将点的相对位置与权重矩阵关联起来。给定中心点 pi与其相邻点pj的位置关系(pi， pj)∈RDin， ScoreNet预测Bm的位置自适应系数为： Sij＝α( θ(pi， pj)) 其中θ表示多层感知器(MLP)， α是使softmax函数实现的归一化操作。输出向量其中表示构建核K(pi， pj)时Bm的系数， M是权重矩阵的数量。 softmax函数保证系数的取值范围在0到1之间，确保每个权重矩阵都会以一定的概率值被选择，值越大表示位置输入与权重矩阵之间的关系越强。 PAConv的核通过将权重库中的权重矩阵与ScoreNet预测的位置自适应系数相结合而得出：将生成的核作用于输入特征,并经过最大池化得到新的特征向量：其中K表示卷积核，表示最大池化操作， Pin和Pout分别代表输入输出特征。 3.如权利要求1所述的方法，其特征在于，步骤3中，所述通道注意力层由Squeeze、 Excitation和Reweight三部分构成。 Squeeze在空间维度上进行特征压缩，将每个特征通道变成一个实数，这个实数在某种程度上具有全局的感受野，并且输出的维度和输入的特征权　利　要　求　书 1/3 页 2 CN 114743007 A 2通道数相同。 Excitation基于特征通道间的相关性，在每个特征通道上生成一个权重，用来代表特征通道的重要程度。 Reweight将Excitation输出的权重当作每个特征通道的重要性，然后通过乘法逐通道加权到之前的特征上，完成在通道维度上的对原始特征的重标定。详细过程如下：对于点云数据， Squeeze由一维的全局平均池化实现，完成特征映射通道间信息的相关性统计: Pavg＝AvgPool1D(Pin) 在通过Squeeze操作得到的信息的基础上，为了进一步捕捉通道间的相关性信息，借助 sigmoid激活函数进行操作： Ps＝σ(L( δ(L(Pavg)))) 其中σ 表示sigmoid函数， L表示Line ar线性函数， δ表示Le aky_ReLU激活函数。在反向传播过程中，不同于原网络的ReLU函数，本发明选择的Leaky_ReLU函数在输入小于零的部分也可以计算出梯度，而不是像ReLU一样值为0，可以解决神经元“死亡”问题: ReLU(x)＝max(0， x) Leaky_ReLU＝max(0， α x) 为了降低网络模型的复杂程度，提升网络对不同数据的适应能力，第一个Linear函数将输入的通道维数降低为再通过Leaky_ReLU激活函数，随后再用一个Linear函数将数据进行扩维，使其与原始输入维度相同。最后输入到 sigmoid函数将权重值规范化为0到1的数值，并将权重值加权到原通道信息完成重标定：其中Pout为L_SE layer输出的新特征。 4.如权利要求1所述的方法，其特征在于，步骤5中，所述多尺度卷积上下文模块用来提取丰富的点云特征，不同于标准卷积，本发明选择一维的空洞卷积。空洞卷积实际上是对点云特征进行采样的过程，采样频率根据参数空洞大小来设定(r ate)来设定。当rate＝1时，特征采样不丢失任何信息即标准卷积操作；当rate>1，在原始数据上每隔(r ate‑1)个点云进行采样，从而增大感受野的范围。实际核大小K根据如下公式来计算： kernel_size+(kernel_size ‑1)(rate‑1) 其中kernel_size为初始核大小。所以当选择标准卷积时， K与kernel_size相等，而空洞卷积的K 更大。空洞卷积在增大感受野的同时，不会降低空间维度，也不会增加参数量，实现精度与速度的均衡。卷积后输出点云大小为： ·input： (B， Cin， Nin) ·output： (B， Cout， Nout) 其中N为点云数， dilation表示rate。对于不同卷积核大小，为了使输出后的N保持不变，将dilation 设置为2， pa dding等于(kernel_siz e‑1)。基于上述设定，多尺度卷积上下文模块首先用核大小为1的标准卷积得到全局信息，然后用膨胀率为2，核大小分别为3、 5、 7的权　利　要　求　书 2/3 页 3 CN 114743007 A 3

专利 一种基于通道注意力与多尺度融合的三维语义分割方法

专利一种基于通道注意力与多尺度融合的三维语义分割方法