专利基于人机交互的视频图像中目标自标注方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111629048.5 (22)申请日 2021.12.2 9 (71)申请人南京东奇智能制造研究院有限公司地址 210008 江苏省南京市雨花台区宁双路19号云密城10号楼 9层 (72)发明人费树岷　赵贤林　沙骁骅　 (74)专利代理机构北京德崇智捷知识产权代理有限公司 1 1467 专利代理师黄雪 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/22(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) (54)发明名称基于人机交互的视频图像中目标自标注方法 (57)摘要本发明公开了基于人机交互的视频图像中目标自标注方法，包括如下步骤：对视频图像进行预处理，获取视频图像的当前帧图像，在当前帧图像上以跟踪目标所在位置为中心，以目标大小的2‑5倍的范围选取候选区域；利用分类器模型在候选区域中获取候选目标所对应的目标位置；对视频图像中候选区域的目标位置矩形框内的图像进行 RGB颜色空间转换到HSV颜色空间；对当前帧视频图像中候选区域目标位置区域进行分析。本发明增强了对目标的特征提取能力，在保持相同数量参数的情况下，进行更大的图像区域特征提取，保证了特征提取的最大化，有助于后续跟踪关联匹配的准确性提升，降低被遮挡目标被估测错误的概率，实现对整个视频图像中目标的准确跟踪。权利要求书1页说明书3页附图1页 CN 114463668 A 2022.05.10 CN 114463668 A 1.基于人机交互的视频图像中目标自标注方法，其特征在于，包括如下步骤： S1对视频图像进行预处理，获取视频图像的当前帧图像，在当前帧图像上以跟踪目标所在位置为中心，以目标大小的2‑5倍的范围选取候选区域； S2利用分类器模型在候选区域中获取候选目标所对应的目标位置； S3对视频图像中候选区域的目标位置矩形框内的图像进行RGB颜色空间转换到HSV颜色空间； S4对当前帧视频图像中候选区域目标位置区域进行分析，并利用Bayes公式对当前颜色直方图进行运算，求得所对应的颜色是目标的概率； S5通过深度卷积神经网络，获取视频图像中候选区域目标的多种特征，通过滤波器方法计算每种特征的特征置信权重，根据特征置信权重，获取目标当前的跟踪目标位置； S6用当前帧适配图像中跟踪目标的坐标信息进行跟踪，并更新分类器模型，完成视频图像中目标的稳定跟踪。 2.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述分类器模型的建立：对跟踪目标进行扩展，并获取扩展后的目标区域所对应的Hog特征向量，根据扩展后的目标区域对应的Hog特征向量，建立分类器模型。 3.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述步骤S6采用贪心预测法对目标做运动预测：贪心预测法假定运动目标在相邻两帧做匀速运动预测目标坐标，再通过与目标实际位置做参考计算误差并作为补偿，预测得到下一帧目标的坐标位置；将上述预测的坐标位置作为下一帧的目标区域跟踪框中心，循环采用贪心预测法对目标做运动预测实现对运动目标的跟踪。 4.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述步骤S1获取当前帧图像的方式为通过检测算法自动获取或通过人工框定选取。 5.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述步骤S1候选区域的选取：以检测目标所在位置的中心点为中心，在当前帧图像中选取第一候选区域，第一候选区域的宽和高分别为跟踪目标在上一帧图像中宽和高的2 ‑5倍。 6.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述步骤S2之后利用提取到的目标中心点位置获取目标的预测位置，利用两个目标预测位置的重叠区域判断目标是否被遮挡，当两个目标的预测位置有重叠时，标记产生重叠的两个目标。 7.根据权利要求6所述的基于人机交互的视频图像中目标自标注方法，其特征在于，判断目标出现遮挡、丢失或者模糊情况，进入下一帧图像进行目标检测。 8.根据权利要求1所述的基于人机交互的视频图像中目标自标注方法，其特征在于，所述步骤S1从视频图像提取的当前帧图像，将当前帧图像进行二值化处理得到视频图像的二值图像。权　利　要　求　书 1/1 页 2 CN 114463668 A 2基于人机交互的视频图像中目标自标注方法技术领域 [0001]本发明涉及视频处理技术领域，尤其涉及基于人机交互的视频图像中目标自标注方法。背景技术 [0002]目标跟踪技术的研究和应用是计算机视觉的一个重要分支，广泛应用于导弹制导、交通路口监控、航空航天、安防监控、体育竞技等领域。目标跟踪的主要任务是从视频流中提取特征信息，其中包括位置、形状大小、轮廓或者颜色等信息，依据这些信息完成目标跟踪的过程。 [0003]目前常用的运动目标跟踪方法主要分为三类：基于运动分析的方法，基于图像特征匹配的方法，基于颜色特征分布的方法。然而，现有的目标跟踪方法在跟踪目标时，容易出现目标遮挡，目标跟踪不连续的情况，可能会有一些干扰噪点，存在不能准确的提取出目标，存在对目标的漏检的问题，利用现有跟踪算法很容易导致跟踪不准确。发明内容 [0004]基于背景技术存在的技术问题，本发明提出了基于人机交互的视频图像中目标自标注方法。 [0005]本发明提出的基于人机交互的视频图像中目标自标注方法，包括如下步骤： S1对视频图像进行预处理，获取视频图像的当前帧图像，在当前帧图像上以跟踪目标所在位置为中心，以目标大小的2‑5倍的范围选取候选区域； S2利用分类器模型在候选区域中获取候选目标所对应的目标位置； S3对视频图像中候选区域的目标位置矩形框内的图像进行RGB颜色空间转换到 HSV颜色空间； S4对当前帧视频图像中候选区域目标位置区域进行分析，并利用B ayes公式对当前颜色直方图进行运算，求得所对应的颜色是目标的概率； S5通过深度卷积神经网络，获取视频图像中候选区域目标的多种特征，通过滤波器方法计算每种特征的特征置信权重，根据特征置信权重，获取目标当前的跟踪目标位置； S6用当前帧适配图像中跟踪目标的坐标信息进行跟踪，并更新分类器模型，完成视频图像中目标的稳定跟踪。 [0006]优选的，所述分类器模型的建立：对跟踪目标进行扩展，并获取扩展后的目标区域所对应的Hog特征向量，根据扩展后的目标区域对应的Hog特征向量，建立分类器模型。 [0007]优选的，所述步骤S6采用贪心预测法对目标做运动预测：贪心预测法假定运动目标在相邻两帧做匀速运动预测目标坐标，再通过与目标实际位置做参考计算误差并作为补偿，预测得到下一帧目标的坐标位置；将上述预测的坐标位置作为下一帧的目标区域跟踪框中心，循环采用贪心预测法对目标做运动预测实现对运动目标的跟踪。 [0008]优选的，所述步骤S1获取当前帧图像的方式为通过检测算法自动获取或通过人工说　明　书 1/3 页 3 CN 114463668 A 3

专利 基于人机交互的视频图像中目标自标注方法

专利基于人机交互的视频图像中目标自标注方法