专利 基于3D卷积网络的手势识别方法、模块及视频控制系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111679229.9 (22)申请日 2021.12.31 (71)申请人广东工业大学地址 510090 广东省广州市越秀区东风东路729号 (72)发明人周永钦　王勇　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 代理人禹小明 (51)Int.Cl. G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06F 3/01(2006.01) (54)发明名称基于3D卷积网络的手势识别方法、模块及视频控制系统 (57)摘要本发明提供了一种基于3D卷积网络的手势识别方法、模块及视频控制系统，涉及人工智能技术领域。所述方法包括步骤： S1、获取用于检测手势的图像数据； S2、将图像数据输入两个预先训练好的3D卷积网络，分别得出手势识别结果； S3、对比两个手势识别结果是否相同；若相同，则得到最终的手势识别结果，若不同则返回步骤 S1。本发明采用3D卷积网络识别图像中的手势信息，只通过普通的摄像头采集的图像即可进行手势识别，通用性和兼容性好，无需用户佩戴额外的硬件，使用体验自然，推广成本低，本技术方案采用两个独立的3D卷积网络分别进行手势识别，并只将两个3D卷积网络手势识别结果相同的手势作为最终识别结果，手势识别准确率更高。权利要求书2页说明书7页附图2页 CN 114333066 A 2022.04.12 CN 114333066 A 1.一种基于 3D卷积网络的手势识别方法，其特征在于，包括步骤： S1、获取用于检测手势的图像数据； S2、将所述图像数据输入两个预先训练好的3D卷积网络，两个3D卷积网络分别根据图像数据得出手势识别结果； S3、对比两个3D卷积网络的手势识别结果是否相同，若两个手势识别结果相同，则得到最终的手势识别结果；若两个手势识别结果不同，则返回步骤S1重新进行手势识别。 2.根据权利要求1所述的一种基于3D卷积网络的手势识别方法，其特征在于，步骤S2中两个所述3D卷积网络结构相同， 3D卷积网络中具有十四层，逐层依次连接；其中，第一层、第三层、第五层、第七层、第八层、第九层均为3D卷积层；第二层、第四层、第六层、第十层均为最大池化层；第十一层和第十二层为ConvLSTM层；第十三层为全局最大池化层；第十四层为全连接层；全连接层使用softmax分类器得到手势的识别结果。 3.根据权利要求2所述的一种基于3D卷积网络的手势识别方法，其特征在于， 3D卷积网络中的每一层的激活函数均采用ReLU非线性激活函数。 4.根据权利要求3所述的一种基于3D卷积网络的手势识别方法，其特征在于，所述3D卷积网络构建完成后，使用随机梯度下降法训练3D卷积网络，训练3D卷积网络采用的损失函数为分类交叉熵损失函数，训练样本包括多组图像数据和每一组图像数据对应的手势标签。 5.根据权利要求4所述的一种基于3D卷积网络的手势识别方法，其特征在于，步骤S2两个所述3D卷积网络分别为第一3D卷积网络和第二3D卷积网络，训练第一3D卷积网络时，用于训练的数据为每一组图像数据中的前若干帧图像和对应的手势标签；训练第二3D卷积网络时，用于训练的数据为每一组图像数据中的中间若干帧图像和对应的手势标签。 6.根据权利要求5所述的一种基于3D卷积网络的手势识别方法，其特征在于，在训练所述3D卷积网络过程中，通过ModelC heckpoint函数保存最优化的3D卷积网络。 7.一种基于3D卷积网络的手势识别系统，用于执行权利要求1 ‑6任一项所述的手势识别方法，其特征在于，包括：数据获取模块、卷积网络模块、结果验证模块；具体地：数据获取模块获取用于检测手势的图像数据；卷积网络模块将所述图像数据输入两个预先训练好的3D卷积网络，两个3D卷积网络分别根据图像数据得出手势识别结果；结果验证模块对比两个3D卷积网络的手势识别结果是否相同，若两个手势识别结果相同，则得到最终的手势识别结果；若两个手势识别结果不同，则返回数据获取模块重新进行手势识别。 8.根据权利要求7所述的一种基于3D卷积网络的手势识别系统，其特征在于，两个所述 3D卷积网络结构相同， 3D卷积网络中具有十四层，逐层依次连接；其中，第一层、第三层、第五层、第七层、第八层、第九层均为3D卷积层；第二层、第四层、第六层、第十层均为最大池化层；第十一层和第十二层为ConvLSTM层；第十三层为全局最大池化层；第十四层为全连接层；全连接层使用softmax分类器得到手势的识别结果。 9.一种基于3D卷积网络的视频控制系统，包括权利要求7所述的手势识别系统，其特征在于，包括：手势识别模块、指令映射模块；手势识别模块通过所述手势识别系统执行手势识别方法识别用户手势，所述手势包括权　利　要　求　书 1/2 页 2 CN 114333066 A 2控制手势和缓冲手势；若手势识别模块识别结果是单一的手势，则将手势识别结果输入指令映射模块，指令映射模块将手势转换为指令，然后控制视频播放器执行；若手势识别模块识别结果是连续多个手势，则从第二个手势开始，判断上一手势是否为缓冲手势，若是则保留当前手势，若不是，则将当前转换为缓冲手势，从而使任意两个控制手势之间至少有一个缓冲手势，最终得到连续多个手势中所有有效的控制手势；将有效的控制手势组合成控制手势序列，输入指令映射模块，指令映射模块依次将控制手势序列转换为对应的指令序列，并按照指令序列控制视频播放器执行相应的功能。 10.根据权利要求9所述的一种视频控制系统，其特征在于，还包括有限状态机，所述有限状态机接收手势识别模块连续多个手势的识别结果，并从第二个手势开始，判断上一手势是否为缓冲手势，若是则保留当前手势，若不是，则将当前转换为缓冲手势，从而使任意两个控制手势之间至少有一个缓冲手势，最终得到连续多个手势中所有有效的控制手势，有限状态机将有效的控制手势组合成控制手势序列，输入指令映射模块，指令映射模块依次将控制手势序列转换为对应的指令序列，并按照指令序列控制视频播放器执行相应的功能。权　利　要　求　书 2/2 页 3 CN 114333066 A 3

专利 基于3D卷积网络的手势识别方法、模块及视频控制系统

专利基于3D卷积网络的手势识别方法、模块及视频控制系统