专利一种人体动作识别和意图理解方法、终端设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210675830.9 (22)申请日 2022.06.15 (71)申请人东莞理工学院地址 523808 广东省东莞市松山湖科技产业园区大学路1号申请人东莞城市学院 (72)发明人任子良　魏文红　梁展豪　李清霞　朴希南　 (74)专利代理机构北京高航知识产权代理有限公司 11530 专利代理师姜杉 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/56(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种人体动作识别和意图理解方法、终端设备及存储介质 (57)摘要本发明提供了一种人体动作识别和意图理解方法、终端设备及存储介质，方法包括：建立基于非局部特征学习的视频序列时空信息的表示方法；设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，利用注意力机制和跨模态特征交互学习策略对语义特征进行一致互补融合学习；在单动作识别模型基础上，进行动作多特征融合识别。本发明设计了多模态底层时空信息表示、动作判别性特征学习、动作序列识别和意图理解方法，可丰富人工智能领域中对人体行为理解的算法体系，可模块后的集成到现有的智能监控、人机交互等行业领域。权利要求书2页说明书7页附图3页 CN 115100740 A 2022.09.23 CN 115100740 A 1.一种人体动作序列识别与意图理解方法，其特征在于，包括： S1、建立基于非局部特征学习的视频序列时空信息的表示方法； S2、设计能够实现多模态视频序列中层语义特征提取的卷积神经网络，并利用跨模态特征补偿学习策略对语义特征进行一致互补融合学习； S3、在单动作识别模型基础上，进行动作多特征融合识别。 2.根据权利要求1所述的一种人体动作序列识别与意图理解方法，其特征在于，所述 S1，具体步骤为： S11、分别对时空信息进行提取，将RGB视频帧和深度图像序列分别压缩为3通道和单通道的伪图像特征图，组成原始数据底层视觉时空信息表示； S12、分别对每个类别的伪图像特征图进行非局部优化学习。 3.根据权利要求2所述的一种人体动作序列识别与意图理解方法，其特征在于，所述伪图像特征图表示为: x’＝ReLU(BN(f(WX*X))) 其中X为输入视频帧图像序， WX表示优化学习到的估计参数， BN( ·)和ReLU(·)为正则化和网络单元激活函数；采用非局部的优化方法，对所述伪图像特征图进行特征位置关联信息学习，表示为：其中C(x′)为特征值归一化函数； yi为学习到的关联信息特征图，设定计算得到I个特征图，则0＜i＜＝ I， j为遍历0 到I的所有整数值。 4.根据权利要求3所述的一种人体动作序列识别与意图理解方法，其特征在于，采用注意力机制方法，所述学习到的关联信息特征图依次进行残差加权处理，经过非局部优化学习后的特征图可以表示为： zi＝Wzyi+yi 其中Wz为优化学习的张量矩阵。 5.根据权利要求1所述的一种人体动作序列识别与意图理解方法，其特征在于，所述S2 包括： S21、通过非局部优化来对视频图像序列进行底层时空信息表示； S22、通过多流基网络分别对视频图像序列进行不同模态的中层判别语义特征的优化学习； S23、对视频图像序列进行高层语义特征融合学习。 6.根据权利要求5所述的人体动作序列识别与意图理解方法，其特征在于，所述高层语义特征融合表示为： Zrgb‑d＝Fnon‑local(ReLU(BN(f(Wrgb‑d*[Zrgb， Zd])))) 其中Wrgb‑d为可学习的卷积核， [Zrgb， Zd]表示高层语特征的顺序联结， Fnon‑local(·)为特征学习函数。 7.根据权利要求1所述的一种人体动作序列识别与意图理解方法，其特征在于，所述S3 包括：权　利　要　求　书 1/2 页 2 CN 115100740 A 2S31、设计多流网络模型分别进行单一动作的特征学习和识别，设计路由学习模块来学习序列动作的中层语义逻辑关联特征； S32、对其序列动作高层语义特征进行非局部优化融合学习。 8.根据权利要求8所述的一种人体动作序列识别与意图理解方法，其特征在于，在所述路由学习模块中，将多动作中层语义特征降维和重定向到各动作信息流，利用卷积优化和残差学习机制，将信息流描述为： Xaction1＝α Xaction1+(1‑α )Fmultiplexer(Xaction1+Xaction2) Xaction2＝β Xaction2+(1‑β )Fmultiplexer(Xaction1+Xaction2) 其中Xaction1和Xaction2表示序列动作的中层语义信息， α， β ∈(0， 1)为多任务特征关联信息的调整系数， Fmultiplexer(·)为交叉特征学习；从所述信息流中学习到的动作序列逻辑关联特征表示为： Xfusion＝Xaction1⊙Xaction2⊙Fmultiplexer(Xaction1+Xaction2) 其中⊙表示特征流融合学习，完成各动作类别的判别后，将多标签和多流特征信息进行全局重定向关联学习。 9.一种终端设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求 1至8任一项所述的方法。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115100740 A 3

专利 一种人体动作识别和意图理解方法、终端设备及存储介质

专利一种人体动作识别和意图理解方法、终端设备及存储介质