专利基于柔性注意力机制的行人视觉惯性组合导航方法与装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221048246 0.7 (22)申请日 2022.05.05 (71)申请人中国人民解放军国防科技大学地址 410073 湖南省长沙市开福区德雅路 109号 (72)发明人陈昶昊　涂哲铭　潘献飞　胡小平　何晓峰　张礼廉　毛军　范晨　 (74)专利代理机构长沙国科天河知识产权代理有限公司 432 25 专利代理师赵小龙 (51)Int.Cl. G01C 21/16(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G06V 40/10(2022.01) G06V 40/20(2022.01) (54)发明名称基于柔性注意力机制的行人视觉惯性组合导航方法与装置 (57)摘要本发明公开了一种基于柔性注意力机制的行人视觉惯性组合导航方法与装置，该方法包括如下步骤：步骤1，获取行人移动产生的视觉数据与惯性数据，并分别基于视觉数据、惯性数据得到视觉特征向量、惯性特征向量；步骤2，基于柔性注意力机制，对视觉特征向量和惯性特征向量进行筛选，根据当前环境动态以及自身运动特点，筛选出有助于位姿估计的特征向量，排除高噪声、不可靠的特征，得到融合后的特征向量；步骤3，对融合后的特征向量进行时间序列建模，得到考虑了时间特性的融合特征向量，再将融合特征向量映射到位姿变换，得出行人的位置和姿态信息。本发明应用于行人导航技术领域，能够有效地解决行人导航中多源数据融合能力不足的问题。权利要求书2页说明书6页附图1页 CN 114894184 A 2022.08.12 CN 114894184 A 1.一种基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，包括如下步骤：步骤1，获取行人移动产生的视觉数据与惯性数据，并分别基于视觉数据、惯性数据得到视觉特征向量、惯性特征向量；步骤2，基于柔性注意力机制，对视觉特征向量和惯性特征向量进行筛选，根据当前环境动态以及自身运动特点，筛选出有助于位姿估计的特征向量，排除高噪声、不可靠的特征，得到融合后的特征向量；步骤3，对融合后的特征向量进行时间序列建模，得到考虑了时间特性的融合特征向量，再将融合特征向量映射到位姿变换，得出行人的位置和姿态信息。 2.根据权利要求1所述基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，所述视觉数据为图像，所述惯性数据包括加速度数据和陀螺仪数据。 3.根据权利要求2所述基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，步骤1中，所述视觉特征向量、所述惯性特征向量均通过基于深度神经网络的行人视觉惯性导航模型提取得到；所述基于深度神经网络的行人视觉惯性导航模型包括卷积神经网络与长短时记忆网络，其训练过程为：根据行人移动产生的视觉数据与惯性数据，并标记行人运动中的实际位置和姿态为标签数据，用于模型训练与测试的数据集；采用端对端的训练方式，在数据集上训练基于深度神经网络的行人视觉惯性导航模型，得到训练好的行人导航模型。 4.根据权利要求2或3或4所述基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，步骤1中，所述视觉特征向量的获取过程为：使用卷积神经网络从两个连续的图像帧中提取出视觉特征向量；所述惯性特征向量的获取过程为：使用长短时记忆网络从两个连续的图像帧之间的惯性数据中提取出惯性特征向量。 5.根据权利要求4所述基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，步骤2中，所述融合后的特征向量获取过程为：将视觉特征向量与惯性特征向量连接在一起组成特征向量x，并计算该特征向量x两个不同编码映射函数的点乘积相似度；基于点乘积相似度得到柔性注意力变量，并进一步得到注意力向量，将注意力向量与特征向量x相加即得到融合后的特征向量。 6.根据权利要求5所述基于柔性注意力机制的行人视觉惯性组合导航方法，其特征在于，步骤2中，所述融合后的特征向量获取过程具体为：将两个连续的图像帧对应的视觉特征向量aV与惯性特征向量aI连接在一起组成特征向量x，计算该特征向量x的编码映射函数θ(xi)和φ(xj)的点乘积相似度： S(xi,xj)＝θ(xi)Tφ(xj) 式中， S(xi,xj)表示点乘积相似度， θ(xi)＝Wθxi和φ(xj)＝Wφxj分别将特征向量x在i位置和j位置上特征映射到两个特征空间里，其中， Wθ表示将特征向量映射到特征空间θ 的变换矩阵， Wφ表示将特征向量映射到特征空间Φ的变换矩阵；权　利　要　求　书 1/2 页 2 CN 114894184 A 2将归一化因子定义为将j位置的所有特征累计，定义另一个线性变换函数g(xj)＝Wgxj，其中， Wg表示将特征向量映射到特征空间g的变换矩阵；即能得到柔性注意力变量y，为：式中，柔性注意力变量yi表明在位置i上的特征向量xi在融合的时候应该给予多大的权重；最终，柔性注意力机制的计算可以表示为：引入残差通道，将线性变换的注意力向量与特征向量x相加得到： Fusion(x)＝α(y)+x α(y)＝Wαy 式中， Fusion(x)为融合后的特征向量， α(y)为注意力向量， Wα表示将注意力向量映射到特征空间α 的线性变换矩阵；这样，通过引入非局部的柔性注意力融合函数，调节视觉和惯性特征来重新加权每个特征，得到融合后的特征向量Fusi on(x)。 7.一种基于柔性注意力机制的行人视觉惯性组合导航装置，其特征在于，包括：数据获取模块：根据行人移动产生的视觉数据和惯性数据，构建用于模型训练的数据集，其中，所述视觉数据为图像，所述惯性数据包括加速度数据和陀螺仪数据；视觉特征提取模块：使用卷积神经网络从两个连续的单目图像帧中提取出视觉特征向量；惯性特征提取模块：使用长短记忆网络从惯性测量序列中提取惯性特征向量；多源导航信息融合模块：基于柔性注意力机制，对视觉特征向量和惯性特征向量进行筛选，根据当前环境动态以及自身运动特点，筛选出有助于位姿估计的特征向量，排除高噪声、不可靠的特征，得到融合后的特征向量；时序建模模块：对融合后的特征向量进行时间序列建模，得到考虑了时间特性的融合特征向量；位姿估计模块：利用全连接层网络将融合特征向量映射到位姿变换，得出行人的位置和姿态信息。权　利　要　求　书 2/2 页 3 CN 114894184 A 3

专利 基于柔性注意力机制的行人视觉惯性组合导航方法与装置

专利基于柔性注意力机制的行人视觉惯性组合导航方法与装置