说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210427552.5 (22)申请日 2022.04.22 (71)申请人 云南师范大学 地址 650500 云南省昆明市呈贡区 聚贤街 768号 (72)发明人 云利军 杨彦辰 陈载清 程飞燕  李若愚  (74)专利代理 机构 北京睿智保诚专利代理事务 所(普通合伙) 11732 专利代理师 杜娟 (51)Int.Cl. G06V 40/10(2022.01) G06N 3/08(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) (54)发明名称 基于改进ViT的复杂场景下红外图像人体步 态识别方法 (57)摘要 本发明公开了基于改进ViT的复杂场景下红 外图像人体步态识别方法, 涉及图像识别技术领 域, 包括: 数据预处理步骤、 异 类迁移学习权重准 备步骤、 模型训练步骤、 模型测试步骤。 本发明能 够对复杂场景下红外人体图像步态进行识别, 能 够解决雨、 雪、 雾或可见光源不足等因素对步态 识别的影响。 权利要求书2页 说明书8页 附图4页 CN 114708619 A 2022.07.05 CN 114708619 A 1.基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特征在于, 包括以下步 骤: S101.数据预处理步骤: 对CASIAC红外人体步态数据 集进行预处理、 步态周期组容量估 算以及按照步态周期组分割数据, 得到测试 数据集和训练数据集; S201.异类迁移学习权重准备步骤: 将Vision  Transformer模型利用ImageNet ‑21K数 据集进行训练, 然后将训练所 得的各层权 重参数进行权 重冻结和匹配; S301.模型训练步骤: 对构建后的SD  Vision Transformer模型进行初始化, 并引入 S201得到的权重, 加载训练数据集进行模型训练, 得到训练好的SD  Vision Transformer模 型; S401.模型测试步骤: 将测试数据集输入至训练好的SD  Vision Transformer模型中, 进行复杂场景 下红外人体图像步态 识别。 2.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特 征在于, S101.数据预处 理具体包括以下步骤: S1011.获取CASIAC红外步态数据库; S1012.对红外人体图像进行均值背景减除法, 采用背景减除法来提取人体轮廓特征, 将被采集 者步态信息居中显示, 得到步态图像; S1013.采用零均值归一化交叉相关系数对S1012中的步态图像进行相似性估计, 来测 算步态周期组的容 量; S1014.采用滑动窗口方式划分步态图像, 得到步态周期组, 将全部步态周期组按一定 的分割比例划分为训练数据集和 测试数据集。 3.根据权利要求2所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特 征在于, S1012.的具体内容 为: 先采用均值背景减除法, 先对连续的图像序列中N帧连续红外步态图像的同一位置求 取均值, 并将得到的像素均值作为背 景模型, 然后逐一进行差 分运算; 最后通过阈值比较进 行运动目标与背 景的分割; 之后再通过二值化操作和多余背 景剪裁操作将人体步态特征展 现出来。 4.根据权利要求3所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特 征在于, t时刻的背景图像如下式: t时刻提取 出的运动目标图像的二 值图像如下式: 式中, It(i,j)代表t时刻的视频帧, T表示分割阈值, (i,j)代表该帧图像中的各像素位 置坐标。 5.根据权利要求2所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特权 利 要 求 书 1/2 页 2 CN 114708619 A 2征在于, S1013中零均值归一 化交叉相关系数的计算公式如下式: 式(3)中, (x,y)为图像中 的像素位置坐标, f(x,y)是原图像像素值, t(x,y)为模板图像 像素值, n为模 板中像素(元素)的个数, μf、 μt分别为原图像和模 板图像的像素均值, σ f、 σ t分 别为原图像和模板图像 像素标准差。 6.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特 征在于, S301.模型训练包括以下步骤: S3011.初始化构建的SD  Vision Transfor mer模型, 引入S201得到的权重, 加载训练数 据集, 将步态周期组中每一个时刻的图像按顺序输入; S3012.分别将某一时刻图像进行等尺寸分割, 将一整张图像, 按网格化切割成等尺寸 图像块, 将分割出的每一个图像块分别重构成一 维张量, 并加入位置嵌入, 位置顺序为 从左 到右, 从上到下; S3013.将添加了位置嵌入的一维张量输入多头注意力机制模块, 之后再通过特征平均 融合模块拟合特 征权重; S3014.更新S D Vision Transformer模型的权 重; S3015.判断训练数据集是否加载完毕, 若为是, 则进入S3016, 若为否, 则返回S3011中 继续加载训练数据集; S3016.得到训练好的S D Vision Transformer模型。 7.根据权利要求1所述的基于改进ViT的复杂场景下红外图像人体步态识别方法, 其特 征在于, S401.模型测试包括以下步骤: S4011.将测试数据 集按照保留时间域和空间域信息的方式输入至训练好的SD  Vision  Transformer模型中, 进行时间域及空间域 步态特征提取; S4012.将得到的时间域及空间域步态特征进行相似性比对, 进行复杂场景下红外人体 图像步态 识别, 得到识别测试 结果。权 利 要 求 书 2/2 页 3 CN 114708619 A 3

.PDF文档 专利 基于改进ViT的复杂场景下红外图像人体步态识别方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于改进ViT的复杂场景下红外图像人体步态识别方法 第 1 页 专利 基于改进ViT的复杂场景下红外图像人体步态识别方法 第 2 页 专利 基于改进ViT的复杂场景下红外图像人体步态识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:37:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。