说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210675830.9 (22)申请日 2022.06.15 (71)申请人 东莞理工学院 地址 523808 广东省东莞 市松山湖科技产 业园区大 学路1号 申请人 东莞城市学院 (72)发明人 任子良 魏文红 梁展豪 李清霞  朴希南  (74)专利代理 机构 北京高航知识产权代理有限 公司 11530 专利代理师 姜杉 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/56(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种人体动作识别和意图理解方法、 终端设 备及存储介质 (57)摘要 本发明提供了一种人体动作识别和意图理 解方法、 终端设备及存储介质, 方法包括: 建立基 于非局部特征学习的视频序列时空信息的表示 方法; 设计能够实现多模态视频序列中层语义特 征提取的卷积神经网络, 利用注 意力机制和跨模 态特征交互学习策略对语义特征进行一致互补 融合学习; 在单动作识别模型基础上, 进行动作 多特征融合识别。 本发明设计了多模态底层时空 信息表示、 动作判别性特征学习、 动作序列识别 和意图理解方法, 可丰富人工智能领域中对人体 行为理解的算法体系, 可模块后的集成到现有的 智能监控、 人机交 互等行业领域。 权利要求书2页 说明书7页 附图3页 CN 115100740 A 2022.09.23 CN 115100740 A 1.一种人体动作序列识别与意图理解方法, 其特 征在于, 包括: S1、 建立基于非局部特 征学习的视频序列时空信息的表示方法; S2、 设计能够实现多模态视频序列中层语义特征提取的卷积神经网络, 并利用跨模态 特征补偿学习策略对语义特 征进行一 致互补融合学习; S3、 在单动作识别模型基础上, 进行动作多特 征融合识别。 2.根据权利要求1所述的一种人体动作序列识别与意图理解方法, 其特征在于, 所述 S1, 具体步骤为: S11、 分别 对时空信息进行提取, 将RGB视频帧和 深度图像序列分别压缩为3通道和单通 道的伪图像特 征图, 组成原 始数据底层视 觉时空信息表示; S12、 分别对每 个类别的伪图像特 征图进行非局部优化学习。 3.根据权利要求2所述的一种人体动作序列识别与意图理解方法, 其特征在于, 所述伪 图像特征图表示 为: x’=ReLU(BN(f(WX*X))) 其中X为输入视频帧图像序, WX表示优化学习 到的估计参数, BN( ·)和ReLU(·)为正则 化和网络单元激活函数; 采用非局部的优化方法, 对所述伪图像特征图进行特征位置关联 信息学习, 表示 为: 其中C(x′)为特征值归 一化函数; yi为学习到的关联信息特征图, 设定计算得到I个 特征 图, 则0<i<= I, j为遍历0 到I的所有 整数值。 4.根据权利要求3所述的一种人体动作序列识别与意图理解方法, 其特征在于, 采用注 意力机制方法, 所述学习到的关联信息特征图依 次进行残差加权处理, 经过非局部优化学 习后的特 征图可以表示 为: zi=Wzyi+yi 其中Wz为优化学习的张量矩阵。 5.根据权利要求1所述的一种人体动作序列识别与意图理解方法, 其特征在于, 所述S2 包括: S21、 通过非局部优化 来对视频图像序列进行底层时空信息表示; S22、 通过多流基网络分别对视频图像序列进行不同模态的中层判别语义特征的优化 学习; S23、 对视频图像序列进行高层语义特 征融合学习。 6.根据权利要求5所述的人体动作序列识别与意图理解方法, 其特征在于, 所述高层语 义特征融合表示 为: Zrgb‑d=Fnon‑local(ReLU(BN(f(Wrgb‑d*[Zrgb, Zd])))) 其中Wrgb‑d为可学习的卷积核, [Zrgb, Zd]表示高层语特征的顺序联结, Fnon‑local(·)为特 征学习函数。 7.根据权利要求1所述的一种人体动作序列识别与意图理解方法, 其特征在于, 所述S3 包括:权 利 要 求 书 1/2 页 2 CN 115100740 A 2S31、 设计多流网络模型分别进行单一动作的特征学习和识别, 设计路由学习模块来学 习序列动作的中层语义逻辑关联 特征; S32、 对其序列动作高层语义特 征进行非局部优化融合学习。 8.根据权利要求8所述的一种人体动作序列识别与意图理解方法, 其特征在于, 在所述 路由学习模块中, 将多动作中层语义特征降维和重定 向到各动作信息流, 利用卷积优化和 残差学习机制, 将信息流描述 为: Xaction1=α Xaction1+(1‑α )Fmultiplexer(Xaction1+Xaction2) Xaction2=β Xaction2+(1‑β )Fmultiplexer(Xaction1+Xaction2) 其中Xaction1和Xaction2表示序列动作的中层语义信息, α, β ∈(0, 1)为多任务特征关联信 息的调整系数, Fmultiplexer(·)为交叉特征学习; 从所述信息流中学习到的动作序列逻辑关 联特征表示为: Xfusion=Xaction1⊙Xaction2⊙Fmultiplexer(Xaction1+Xaction2) 其中⊙表示特征流融合学习, 完成各动作类别的判别后, 将多标签和多流特征信息进 行全局重 定向关联 学习。 9.一种终端设备, 其特征在于, 包括存储器、 处理器以及存储在所述存储器中并可在所 述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1至8任 一项所述的方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至8任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 115100740 A 3

.PDF文档 专利 一种人体动作识别和意图理解方法、终端设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种人体动作识别和意图理解方法、终端设备及存储介质 第 1 页 专利 一种人体动作识别和意图理解方法、终端设备及存储介质 第 2 页 专利 一种人体动作识别和意图理解方法、终端设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:25:28上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。