专利 基于改进的注意力机制FairMOT多类别跟踪方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111662790.6 (22)申请日 2021.12.31 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人杨志伟　同磊　段娟　肖创柏　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 代理人沈波 (51)Int.Cl. G06T 7/73(2017.01) G06V 20/40(2022.01) G06V 20/52(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/98(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于改进的注意力机制FairMOT多类别跟踪方法 (57)摘要本发明公开了基于改进的注意力机制 FairMOT多类别跟踪方法，本发明充分利用无人机拍摄的视频，通过引入通道和空间注意力机制的多目标多类别目标追踪算法，对无人机拍摄的视频序列中存在的目标进行追踪及其运动轨迹可视化显示。具体包括如下步骤，首先对无人机数据集进行预处理；构建模型；训练网络；多类别多目标追踪算法的性能评估；在Fair MOT的DL34 ‑ base的基础上添加了注意力机制，使网络更好的学习图像中的语义信息和空间信息。还对网络的其它结构进行了修改，在目标检测分支中修改 heatmap检测头与box size检测头，使得目标检测分支对于目标中心点位置和目标尺寸的预测的精确度更高，进而对整个模型的追踪性能有了不错的提升，本发明具有更高的追踪精准度。权利要求书3页说明书11页附图6页 CN 114241053 A 2022.03.25 CN 114241053 A 1.基于改进的注意力机制FairMOT多类别跟踪方法，其特征在于：该方法包括如下步骤，步骤1、首先对无人机数据集进行预处理；无人机数据集为VisDrone系列公开数据集和UAVDT公开数据集；首先要对无人机数据集的标签进行转换；根据无人机数据集的原始标签中每个目标的遮挡程度对数据集中遮挡严重的目标或区域进行遮罩预处理；步骤2、构建网络模型；在对无人机数据集的数据进行预处理之后，构建网络模型；网络模型由三部分构成，依次是：加入了卷积注意力机制模块CBAM的encoder ‑decoder骨干网络、目标检测分支以及重识别分支； Encoder‑decoder骨干网络由添加CBAM的DLA34 ‑base卷积神经网络、 DLAUP 特征融合模块和IDAUP特征融合模块组成，对输入的图像数据进行特征提取，获得输入图像的空间信息和语义信息，在准确率和速度之间保持平衡；目标检测分支建立在CenterNet之上，对encoder ‑decoder骨干网络输出的特征图进行目标检测，由三个平行的检测头组成，分别为heatmap检测头、 box size检测头以及center offset检测头； heatmap检测头、 box size检测头以及center offset检测头使用的是 TTFNet算法中的heatmap检测头与wh检测头，用来预测骨干网络输出的特征图中目标的中心点以及目标的边界框， center offset检测头则为本模型新添加的检测头，同上述两个检测头一样，用来预测目标中心点的偏移量；重识别分支根据目标检测分支检测到的目标中心点位置，到encoder ‑decoder骨干网络中提取目标的re ‑ID表征特征，再通过匈牙利算法和卡尔曼滤波算法，将相邻帧之间的同一目标进行匹配，为它们分配相同的ID值，进而形成其在连续图像序列中连贯的追踪轨迹；步骤3、训练网络；数据和模型分别处理好之后开始进行训练；训练过程分为四步，即数据加载与增强、骨干网络的训练、目标检测分支的训练、重识别分支的训练；步骤4、多类别多目标追踪算法的性能评估；模型训练完成之后进行测试；在测试过程中，将每一帧追踪到的目标的详细信息保存在一个txt文件中，然后根据这个txt文件中的信息，将追踪到的目标可视化，包含其所属类别、边界框、目标的id值以及显示其在连续图像序列中运动过的轨迹；此外通过将该txt追踪结果与真实标签进行比对，计算出追踪算法的相关评价指标的结果。 2.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法，其特征在于：步骤1中具体包括：在原始的数据集中， UAVDT数据集一共有3个类别： 0号类别代表car 类， 1号类别代表truck类， 2号类别代表bus类； VisDrone2019数据集一共有12 个类别： 0号类别代表ignore regions， 1号类别代表pedestrian类， 2号类别代表people类， 3号类别代表 bicycle类， 4号类别代表car类， 5号类别代表van类， 6号类别代表truck类， 7号类别代表 tricycle类， 8号类别代表awning ‑tricycle类， 9号类别代表bus类， 10号类别代表motor 类， 11号类别代表others类；通过标签转换统一数据集的car类标签为3， truck类标签为5， bus 类标签为8，其余类别标签在原标签基础上减1， ignore region类和others类被剔除；在 UAVDT数据集中随机选取了七个序列作为的测试数据集，序列为： M0204、 M0208、 M0402、权　利　要　求　书 1/3 页 2 CN 114241053 A 2M0702、 M10 05、 M1008以及M13 02。 3.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法，其特征在于：步骤2中具体包括：添加CBAM的DLA34 ‑base卷积神经网络通过在卷积神经网络中引入空间注意力机制和通道注意力机制，使卷积神经网络的特征提取性能提升，为目标检测和重识别分支提供特征图； DLAUP特征融合模块的作用是将骨干网络中不同模块间的特征进行融合，提升网络模型表达能力，降低随着网络深度的增加出现的网络退化； IDAUP特征融合模块的作用是将骨干网络中不同层级间的特征进行融合。 4.根据权利要求1所述的基于改进的注意力机制FairMOT多类别跟踪方法，其特征在于：步骤3中具体包括： (3a)首先加载数据并对数据进行增强；预先为无人机数据集设定多组不同宽高的尺寸作为输入图像的缩放尺度，在加载数据的过程中随机选择预设尺度中的一组，将图像缩放到该指定尺寸之后再输入骨干网络； (3b)对骨干网络的训练； DLAUP特征融合模块与IDAUP特征融合模块与FairMOT模型中相同，而DLA ‑34网络中在原网络的Level0层之前与Level5层之后分别添加了一个CBAM注意力模块，注意力模块在通道和空间维度上进行attention，在level0层之前和lev el5层之后添加注意力模块既可以保证的模型能够使用预训练的权重又能将注意力机制引入的模型；通过将注意力机制引入的模型，图像数据能够在骨干网络中保持丰富的空间信息和语义信息，以供后边的目标检测分支和行人重识别分支使用；在骨干网络的训练中，加载使用 FairMOT算法的预训练权重，将数据增强后的图像输入网络中，通过网络提取图像中丰富的特征信息，作为后续分支的输入数据； (3c)对目标检测分支的训练；目标检测分支的训练是将骨干网络输出的特征图作为本分支的输入，通过不同的检测头完成目标中心点、目标边界框以及目标中心点偏移量的预测；该分支由heatmap检测头、 center offset检测头和box size检测头三个平行检测头构成； Heatmap检测头分支负责估计对象中心的位置，采用基于热图的表示法；不同通道的 heatmap能够预测不同的类别，即在car类对应通道的heatmap中，只负责估计car这一类对象的中心点的位置； Center offset检测头分支负责精准地定位对象， re ‑ID功能与对象中心的对齐精准度对于性能至关重要； Box size检测头分支负责估计每个锚点位置的目标边界框的高度和宽度；目标检测分支的训练流程是将骨干网络提取到的特征图传给目标检测分支的三个检测头，在heatmap检测头中每个通道的heatmap对特征图中可能存在的本类目标的中心点位置进行预测，以此预测当前特征图中该类别目标的个数及其中心点位置，然后将预测结果与真实标签的heatmap值进行比较，使用变形的focal loss损失函数求得heatmap检测头的损失值； center offset检测头负责更精确地定位对象，该检测头根据输入的特征图预测目标的中心点的偏移量，并将预测的结果与真实标签中目标的中心点位置进行比较，通过L1 loss损失函数计算中心点偏移量的损失值，作为c enter offset检测头的损失值； box size 检测头

专利 基于改进的注意力机制FairMOT多类别跟踪方法

专利基于改进的注意力机制FairMOT多类别跟踪方法