说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111679229.9 (22)申请日 2021.12.31 (71)申请人 广东工业大 学 地址 510090 广东省广州市越秀区东 风东 路729号 (72)发明人 周永钦 王勇  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 代理人 禹小明 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 3/01(2006.01) (54)发明名称 基于3D卷积网络的手势识别方法、 模块及视 频控制系统 (57)摘要 本发明提供了一种基于3D卷积网络的手势 识别方法、 模块及视频控制系统, 涉及人工智能 技术领域。 所述方法包括步骤: S1、 获取用于检测 手势的图像数据; S2、 将图像数据输入两个预先 训练好的3D卷积网络, 分别得出手势识别结果; S3、 对比两个手势识别结果是否相同; 若相同, 则 得到最终的手势识别结果, 若不同则返回步骤 S1。 本发明采用3D卷积网络识别图像中的手势信 息, 只通过普通的摄像头采集的图像 即可进行手 势识别, 通用性和兼容性好, 无需用户佩戴额外 的硬件, 使用体验自然, 推广成本低, 本技术方案 采用两个独立的3D卷积网络分别进行手势识别, 并只将两个3D卷积网络手势识别结果相同的手 势作为最终识别结果, 手势 识别准确率更高。 权利要求书2页 说明书7页 附图2页 CN 114333066 A 2022.04.12 CN 114333066 A 1.一种基于 3D卷积网络的手势 识别方法, 其特 征在于, 包括 步骤: S1、 获取用于检测手势的图像数据; S2、 将所述图像数据输入两个预先训练好的3D卷积网络, 两个3D卷积网络分别根据图 像数据得 出手势识别结果; S3、 对比两个3D卷积网络的手势识别结果是否相同, 若两个手势识别结果相同, 则得到 最终的手势 识别结果; 若两个 手势识别结果 不同, 则返回步骤S1重新进行手势 识别。 2.根据权利要求1所述的一种基于3D卷积网络的手势识别方法, 其特征在于, 步骤S2中 两个所述3D卷积网络结构相同, 3D卷积网络中具有十四层, 逐层依次连接; 其中, 第一层、 第 三层、 第五层、 第七层、 第 八层、 第九层均为3D卷积层; 第二层、 第四层、 第六层、 第十层均为 最大池化层; 第十一层和第十二层为ConvLSTM层; 第十三层为全局最大池化层; 第十四层为 全连接层; 全连接层使用softmax分类 器得到手势的识别结果。 3.根据权利要求2所述的一种基于3D卷积网络的手势识别方法, 其特征在于, 3D卷积网 络中的每一层的激活函数均采用ReLU非线性激活函数。 4.根据权利要求3所述的一种基于3D卷积网络的手势识别方法, 其特征在于, 所述3D卷 积网络构建完成后, 使用随机梯度下降法训练3D卷积网络, 训练3D卷积网络采用的损失函 数为分类交叉熵损失函数, 训练样本包括多组图像数据和每一组图像数据对应的手势标 签。 5.根据权利要求4所述的一种基于3D卷积网络的手势识别方法, 其特征在于, 步骤S2两 个所述3D卷积 网络分别为第一3D卷积 网络和第二3D卷积 网络, 训练第一3D卷积 网络时, 用 于训练的数据为每一组图像数据中的前若干帧图像和对应的手势标签; 训练第二3D卷积网 络时, 用于训练的数据为每一组图像数据中的中间若干帧图像和对应的手势标签。 6.根据权利要求5所述的一种基于3D卷积网络的手势识别方法, 其特征在于, 在训练所 述3D卷积网络过程中, 通过ModelC heckpoint函数保存最优化的3D卷积网络 。 7.一种基于3D卷积网络的手势识别系统, 用于执行权利要求1 ‑6任一项所述的手势识 别方法, 其特 征在于, 包括: 数据获取模块、 卷积网络模块、 结果验证模块; 具体地: 数据获取模块获取用于检测手势的图像数据; 卷积网络模块将所述图像数据输入两个预先训练好的3D卷积网络, 两个3D卷积网络分 别根据图像数据得 出手势识别结果; 结果验证模块对比两个3D卷积网络的手势识别结果是否相同, 若两个手势识别结果相 同, 则得到最 终的手势识别结果; 若两个手势识别结果不同, 则返回数据获取模块重新进 行 手势识别。 8.根据权利要求7所述的一种基于3D卷积网络的手势识别系统, 其特征在于, 两个所述 3D卷积网络结构相同, 3D卷积 网络中具有十四层, 逐层依次连接; 其中, 第一层、 第三层、 第 五层、 第七层、 第八层、 第九层均为3D卷积层; 第二层、 第四层、 第六层、 第十层均为最大池化 层; 第十一层和第十二层为ConvLSTM层; 第十三层为全局最大池化层; 第十四层为全连接 层; 全连接层使用softmax分类 器得到手势的识别结果。 9.一种基于3D卷积网络的视频控制系统, 包括权利要求7所述的手势识别系统, 其特征 在于, 包括: 手势 识别模块、 指令映射模块; 手势识别模块通过所述手势识别系统执行手势识别方法识别用户手势, 所述手势包括权 利 要 求 书 1/2 页 2 CN 114333066 A 2控制手势和缓冲手势; 若手势识别模块识别结果是单一的手势, 则将手势识别结果输入指令映射模块, 指令 映射模块将手势转换为指令, 然后控制视频播 放器执行; 若手势识别模块识别结果是连续多个手势, 则从第二个手势开始, 判断上一手势是否 为缓冲手势, 若是则 保留当前手势, 若不是, 则将当前转换为缓冲手势, 从而使任意两个控 制手势之间至少有一个缓冲手势, 最终得到连续多个手势中所有有效的控制手势; 将有效 的控制手势组合成控制 手势序列, 输入指令映射模块, 指令映射模块依 次将控制手势序列 转换为对应的指令序列, 并按照指令序列控制视频播 放器执行相应的功能。 10.根据权利要求9所述的一种视频控制系统, 其特征在于, 还包括有限状态机, 所述有 限状态机接 收手势识别模块连续多个手势的识别结果, 并从第二个手势开始, 判断上一手 势是否为缓冲手势, 若是则 保留当前手势, 若不是, 则将当前转换为缓冲手势, 从而使任意 两个控制 手势之间至少有一个缓冲手势, 最终得到连续多个手势中所有有效的控制手势, 有限状态机将有效的控制手势组合成控制 手势序列, 输入指令映射模块, 指令映射模块依 次将控制手势序列转换为对应的指 令序列, 并按照指 令序列控制视频播放器执行相应的功 能。权 利 要 求 书 2/2 页 3 CN 114333066 A 3

.PDF文档 专利 基于3D卷积网络的手势识别方法、模块及视频控制系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于3D卷积网络的手势识别方法、模块及视频控制系统 第 1 页 专利 基于3D卷积网络的手势识别方法、模块及视频控制系统 第 2 页 专利 基于3D卷积网络的手势识别方法、模块及视频控制系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:19:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。