专利 一种深度6D位姿估计网络模型及工件位姿估计方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111661938.4 (22)申请日 2021.12.31 (71)申请人河北工业大学地址 300130 天津市红桥区丁字沽光荣道8 号河北工业大学东院330# (72)发明人陈海永　李龙腾　 (74)专利代理机构天津翰林知识产权代理事务所(普通合伙) 12210 代理人张国荣 (51)Int.Cl. G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种深度6D位姿估计网络模型及工件位姿估计方法 (57)摘要本发明公开一种深度6D位姿估计网络模型及工件位姿估计方法，该工件位姿估计方法通过物理引擎生成模拟数据集的方法解决了大体量点云数据集获取困难的问题，以纯几何点云坐标直接将完整场景点云作为输入，通过点云的语义与实例分割部分，可以提取输入点云的局部与全局特征，提升了网络对场景的理解能力，并通过多层特征融合的位姿估计网络输出准确姿态，在一定程度上解决了物体的堆叠和自遮挡问题，且针对各种对称物体具有鲁棒性，经过模拟真实场景的数据集的实验验证，本发明提出的方法在整体精度和稳定性上具有明显优势，具有更高的鲁棒性。权利要求书5页说明书10页附图3页 CN 114299150 A 2022.04.08 CN 114299150 A 1.一种深度6D位姿估计网络模型，其特征在于，该网络模型包含点云分割器、特征聚类采样器和姿态估计器三个子模块：所述点云分割器包括特征提取器、特征生成器和特征判别器，其中特征提取器由多个 SA层构成，特征生成器由多个FP层构成，特征判别器由两个MLP 构成；特征提取器的多个SA层对输入的点云数据进行多层逐次采样提取特征点，输入的点云数据除了输入到第一个SA层之外还输入到特征生成器的最后一个FP层，第一个SA层提取到的特征点除了输入到第二个SA层之外还输入到特征生成器的倒数第二个FP层，以此类推，每一个SA层提取到的特征点除了输入到下一个SA层还输入到距离其最远的未连接SA层的 FP层，最后一个SA层提取到的特征点输入到第一个FP层；输入的N ×3的点云数据经过特征提取器与特征生成器的处理后，最终输出N ×128维的特征向量；所述两个MLP的尺寸分别为[64， 128]与[64， 32 ]，将特征生成器的最后一个FP层的输出分别输入到两个MLP，分别获得输入点云数据的点级高维实例特征和语义标签预测；所述特征聚类采样器由基于密度聚类的机器学习方法以及采样方法组合而成，对于点云分割器生成的高维实例特征，特征聚类采样器将具有相似特征的实例点聚类，生成实例，并通过最远点迭代下采样方法或球查询上采样方法将点数控制到统一值M个，结合语义标签送入下一环节；具体的，若生成实例的点数大于M，使用迭代最远点采样法；而生成实例的点数小于M时，则使用球查询的方法，将点云围绕中心点划分成N个球形区域，将预测实例的点与输入的原始点云合并，并在每个预测点的查询半径内查找距离最近的原始点，循环查找直至找到M个点；对于数量过于小的点簇，即点数小于100的点，不进行球查询以及后续的保存处理；所述姿态估计器包含两个姿态特征提取模块，该两个姿态特征提取模块结构相同，聚类采样器输出的M个点数的实例及相应的语义标签输入到姿态估计器，姿态估计器对其进行两个方面的处理：第一方面是将M个点数的实例及相应的语义标签直接输送到第一姿态特征提取模块，通过第一姿态特征提取模块获得预测的带语义标签的点云实例的旋转向量；第二方面是求取M个点数的实例的均值，然后将M个点数的实例及相应的语义标签减去M 个点数的实例的均值后输送到第二姿态特征提取模块，获得预测的相对偏移，然后再将相对偏移与M个点数的实例的均值加和，获得预测的带语义标签的点云实例的平移向量；姿态特征提取模块基于改进的PointNet结构，其工作原理为：首先将输入点云实例通过一个尺寸为[64,64,128,256]的MLP进行特征提取，然后将MLP的每层所提取到的多个维度特征进行拼接，获得一个512维度的多层次特征；接着将获得的512维度的多层次特征输入到一个全连接层，获得一个102 4维度的多层次特征，之后将其输入到池化层，获取全局特征；最后，将全局特征输入到尺寸为[512,256,3]的MLP，获得预测的带语义标签的点云实例的旋转向量或平移向量。 2.根据权利要求1所述的一种深度6D位姿估计网络模型，其特征在于，点云分割器的损失函数由两个分支的损失函数加权求和而成：其中θ， η是平衡参数, 分别代表语义标签与实例特征生成的损失函权　利　要　求　书 1/5 页 2 CN 114299150 A 2数，语义标签分支的损失函数为交叉熵损失函数，实例特征生成分支的损失函数定义如下：其中α， β， γ为权重参数，表示若场景下共有C个实例， NC为其中的第c个， μC为该实例的特征的均值； xi为第i个点的实例特征；为计算每个实例的点朝向其自身实例中心点的损失，使得每个实例点的预测向其真实中心点靠近；为计算各个实例的中心点之间的距离损失，增加预测的各个实例中心点的距离； δv和δd为和的损失界限，为一个使得每个点向着原点靠近的拉力，以保持激活有界；点云分割器在训练时，采用随机梯度下降的方式使最小化。 3.根据权利要求1所述的一种深度6D位姿估计网络模型，其特征在于，特征聚类采样器中点数M＝ 4096。 4.根据权利要求1所述的一种深度6D位姿估计网络模型，其特征在于，姿态估计器在计算Loss时由于网络对输入的点云会去除输入点云均值再进行计算，则输出的平移Δt为平移残差，故预测平移向量由网络预测的残差平移Δt与输入的M×3点云求均值获得的μt加和构成：平移向量T的损失函数为真实平移向量t与预测平移向量之间距离的二范数：旋转向量r的损失函数为将预测旋转向量与真实旋转向量r转换为对应旋转矩阵与 R后，计算两者在三维空间中的旋转差，即测地距离：权　利　要　求　书 2/5 页 3 CN 114299150 A 3

专利 一种深度6D位姿估计网络模型及工件位姿估计方法

专利一种深度6D位姿估计网络模型及工件位姿估计方法