专利基于改进ViT的复杂场景下红外图像人体步态识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210427552.5 (22)申请日 2022.04.22 (71)申请人云南师范大学地址 650500 云南省昆明市呈贡区聚贤街 768号 (72)发明人云利军　杨彦辰　陈载清　程飞燕　李若愚　 (74)专利代理机构北京睿智保诚专利代理事务所(普通合伙) 11732 专利代理师杜娟 (51)Int.Cl. G06V 40/10(2022.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) (54)发明名称基于改进ViT的复杂场景下红外图像人体步态识别方法 (57)摘要本发明公开了基于改进ViT的复杂场景下红外图像人体步态识别方法，涉及图像识别技术领域，包括：数据预处理步骤、异类迁移学习权重准备步骤、模型训练步骤、模型测试步骤。本发明能够对复杂场景下红外人体图像步态进行识别，能够解决雨、雪、雾或可见光源不足等因素对步态识别的影响。权利要求书2页说明书8页附图4页 CN 114708619 A 2022.07.05 CN 114708619 A 1.基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于，包括以下步骤： S101.数据预处理步骤：对CASIAC红外人体步态数据集进行预处理、步态周期组容量估算以及按照步态周期组分割数据，得到测试数据集和训练数据集； S201.异类迁移学习权重准备步骤：将Vision Transformer模型利用ImageNet ‑21K数据集进行训练，然后将训练所得的各层权重参数进行权重冻结和匹配； S301.模型训练步骤：对构建后的SD Vision Transformer模型进行初始化，并引入 S201得到的权重，加载训练数据集进行模型训练，得到训练好的SD Vision Transformer模型； S401.模型测试步骤：将测试数据集输入至训练好的SD Vision Transformer模型中，进行复杂场景下红外人体图像步态识别。 2.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于， S101.数据预处理具体包括以下步骤： S1011.获取CASIAC红外步态数据库； S1012.对红外人体图像进行均值背景减除法，采用背景减除法来提取人体轮廓特征，将被采集者步态信息居中显示，得到步态图像； S1013.采用零均值归一化交叉相关系数对S1012中的步态图像进行相似性估计，来测算步态周期组的容量； S1014.采用滑动窗口方式划分步态图像，得到步态周期组，将全部步态周期组按一定的分割比例划分为训练数据集和测试数据集。 3.根据权利要求2所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于， S1012.的具体内容为：先采用均值背景减除法，先对连续的图像序列中N帧连续红外步态图像的同一位置求取均值，并将得到的像素均值作为背景模型，然后逐一进行差分运算；最后通过阈值比较进行运动目标与背景的分割；之后再通过二值化操作和多余背景剪裁操作将人体步态特征展现出来。 4.根据权利要求3所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于， t时刻的背景图像如下式： t时刻提取出的运动目标图像的二值图像如下式：式中， It(i,j)代表t时刻的视频帧， T表示分割阈值， (i,j)代表该帧图像中的各像素位置坐标。 5.根据权利要求2所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特权　利　要　求　书 1/2 页 2 CN 114708619 A 2征在于， S1013中零均值归一化交叉相关系数的计算公式如下式：式(3)中， (x,y)为图像中的像素位置坐标， f(x,y)是原图像像素值， t(x,y)为模板图像像素值， n为模板中像素(元素)的个数， μf、 μt分别为原图像和模板图像的像素均值， σ f、 σ t分别为原图像和模板图像像素标准差。 6.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于， S301.模型训练包括以下步骤： S3011.初始化构建的SD Vision Transfor mer模型，引入S201得到的权重，加载训练数据集，将步态周期组中每一个时刻的图像按顺序输入； S3012.分别将某一时刻图像进行等尺寸分割，将一整张图像，按网格化切割成等尺寸图像块，将分割出的每一个图像块分别重构成一维张量，并加入位置嵌入，位置顺序为从左到右，从上到下； S3013.将添加了位置嵌入的一维张量输入多头注意力机制模块，之后再通过特征平均融合模块拟合特征权重； S3014.更新S D Vision Transformer模型的权重； S3015.判断训练数据集是否加载完毕，若为是，则进入S3016，若为否，则返回S3011中继续加载训练数据集； S3016.得到训练好的S D Vision Transformer模型。 7.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法，其特征在于， S401.模型测试包括以下步骤： S4011.将测试数据集按照保留时间域和空间域信息的方式输入至训练好的SD Vision Transformer模型中，进行时间域及空间域步态特征提取； S4012.将得到的时间域及空间域步态特征进行相似性比对，进行复杂场景下红外人体图像步态识别，得到识别测试结果。权　利　要　求　书 2/2 页 3 CN 114708619 A 3

专利 基于改进ViT的复杂场景下红外图像人体步态识别方法

专利基于改进ViT的复杂场景下红外图像人体步态识别方法