专利一种基于添加注意力模块的无锚框检测、跟踪统一方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210057161.9 (22)申请日 2022.01.19 (71)申请人中国民航大学地址 300300 天津市东丽区津北公路2898 号 (72)发明人张红颖　贺鹏艺　 (74)专利代理机构天津才智专利商标代理有限公司 12108 代理人庞学欣 (51)Int.Cl. G06T 7/00(2017.01) G06T 7/246(2017.01) G06T 7/70(2017.01) G06N 3/08(2006.01) G06N 3/04(2006.01)G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于添加注意力模块的无锚框检测、跟踪统一方法 (57)摘要一种基于添加注意力模块的无锚框检测、跟踪统一方法。其包括获得预处理图像；获得初始特征提取网络模型；获得训练好的特征提取网络模型；利用上述训练后的特征提取网络模型对行人目标进行持续检测和跟踪等步骤。本发明效果：采用多任务学习策略，极大降低了网络的训练时间；训练后的网络模型具有较高的精确度与鲁棒性；充分利用多尺度信息交互，深度提取、融合更具表达力的行人目标特征，更好地在行人互相遮挡场景下准确跟踪行人目标；利用了二代残差块构成网络模型中的主干网络，同时结合更高效的注意力模块进行信息交互，使得预测方法的检测精度更高，重识别性能更强，能够适用于诸如航站楼等旅客互相遮挡严重场景下的行人目标检测和跟踪。权利要求书3页说明书7页附图3页 CN 114387265 A 2022.04.22 CN 114387265 A 1.一种基于添加注意力模块的无锚框检测、跟踪统一方法，其特征在于：所述基于添加注意力模块的无锚框检测、跟踪统一方法包括按顺序进行的下列步骤： 1)获取航站楼内客流密集区域的图像并进行预处理，获得预处理图像，并且每帧预处理图像带有一个标签，该标签内包含当前帧图像内所有行人目标的位置信息； 2)构建原始特征提取网络模型，然后将上述预处理图像输入原始特征提取网络模型进行特征提取，获得初始特征提取网络模型； 3)针对检测任务的目标中心点定位、边界尺寸、偏移误差以及重识别任务分别设置相应的损失函数；然后使用大量现有数据训练上述初始特征提取网络模型的参数，获得训练好的特征提取网络模型； 4)利用上述训练后的特征提取网络模型对行人目标进行持续检测和跟踪。 2.根据权利要求1所述的基于添加注意力模块的无锚框检测、跟踪统一方法，其特征在于：在步骤1)中，所述获取航站楼内客流密集区域的图像并进行预处理，获得预处理图像的方法是：利用位于航站楼内客流密集区域的监控摄像头，在客流量较大时间段内以固定时间间隔拍摄旅客行走、遮挡过程中的图像，并对图像进行去模糊、降噪和提升分辨率在内的预处理，获得预处理图像。 3.根据权利要求1所述的基于添加注意力模块的无锚框检测、跟踪统一方法，其特征在于：在步骤2)中，所述构建原始特征提取网络模型，然后将上述预处理图像输入原始特征提取网络模型进行特征提取，获得初始特征提取网络模型的方法是：原始特征提取网络模型共分为五个阶段： stem、 stage1、 stage2、 stage3、 stage4；其中 stem为主干网络； sta ge1至sta ge4为阶段1至阶段4；首先主干网络stem通过两个步长为2的3 ×3的卷积层将预处理图像的高宽变为原来的四分之一，然后使用4个二代残差块bottle2neck进行特征提取，并将输出的特征图输入阶段1中；阶段1 ‑阶段3进行特征提取和融合操作，都是在上一阶段的基础上产生一个低分辨率分支，然后每个低分辨率分支使用4个添加两层注意力模块的基准残差块2eca ‑ basicblock进行特征提取，最后将得到的特征图进行重复多尺度融合并输入阶段4；阶段4 为头网络，首先将三个并行的低分辨率分支输出的特征图通过双线性插值方法上采样为高分辨率分支的尺寸大小，然后通过拼接操作和全连接层得到最终的输出特征图，用于检测和重识别，并获得初始特征提取网络模型。 4.根据权利要求1所述的基于添加注意力模块的无锚框检测、跟踪统一方法，其特征在于：在步骤3)中，所述针对检测任务的目标中心点定位、边界尺寸、偏移误差以及重识别任务分别设置相应的损失函数；然后使用大量现有数据训练上述初始特征提取网络模型的参数，获得训练好的特征提取网络模型的方法是：目标中心点定位的损失函数使用变形的focal loss，用于计算预测的热图和实际真实的热图之间的损失，该损失函数能够有效处理目标中心点和周围各点样本不平衡的问题，公式如式(1)所示：权　利　要　求　书 1/3 页 2 CN 114387265 A 2式(1)中，是预测的热图响应值， Mxy是热图的真实响应值；设行人目标区域的两个角点坐标分别为(x1,y1)和(x2,y2)，则经过尺寸缩减后行人目标的中心点坐标为而行人目标某角点坐标(x,y)关于中心点坐标的热图的真实响应值如式(2)所示：其中N表示图像中行人目标的数量， i表示第几个行人目标， σc表示标准方差；边界尺寸和偏移误差选择两个l1 loss作为损失函数，根据每个行人目标给出的角点坐标，损失函数如式(3)所示：其中， si表示行人目标的真实尺寸， oi表示行人目标尺寸的真实偏移量，和分别表示尺寸和偏移量的预测值， Lbox表示由两个分支的损失相加得到的定位损失；重识别任务实质上是一个分类任务，因此选择softmax loss作为损失函数，在获取的热图上行人目标的中心点处提取一个身份特征向量进行学习并将其映射为一个类分布向量p(k)，将每个行人目标的独热编码表示为Li(k)，将类别数记为K，重识别任务的损失函数如式(4)所示：设置好上述所有损失函数后，选择CUHK ‑SYSU、 PRW、 MOT16数据集中的训练集图像作为训练集， 2D MOT15数据集中的训练集图像作为验证集，对上述初始特征提取网络模型的参数进行训练；训练迭代次数设置为36轮次，其中前31轮学习率设置为1e ‑4，随后4轮学习率设为1e‑5，最后一轮使用1e ‑6的学习率训练达到拟合；训练过程中输入的图像尺寸为(1088, 608)，批尺寸设为6，利用Adam优化器进行模型优化，使用relu作为激活函数，设置正则化系数为0.001，训练完成后最终获得训练好的特征提取网络模型。 5.根据权利要求1所述的基于添加注意力模块的无锚框检测、跟踪统一方法，其特征在权　利　要　求　书 2/3 页 3 CN 114387265 A 3

专利 一种基于添加注意力模块的无锚框检测、跟踪统一方法

专利一种基于添加注意力模块的无锚框检测、跟踪统一方法