说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210962950.7 (22)申请日 2022.08.11 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310013 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 武文琦  (74)专利代理 机构 北京智信禾专利代理有限公 司 11637 专利代理师 赵杰 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 40/20(2022.01) (54)发明名称 动作识别方法以及装置 (57)摘要 本说明书实施例提供动作识别方法以及装 置, 其中所述动作识别方法包括: 将待处理视频 输入动作识别模 型, 并通过所述动作识别模型中 的二维卷积网络, 对所述待处理视频进行卷积处 理, 生成对应的第一卷积向量, 其中, 所述待处理 视频中包含目标对象 的待识别动作, 通过所述动 作识别模型中的三维卷积网络, 对 所述待处理视 频及所述第一卷积向量进行卷积处理, 生成对应 的第二卷积向量, 通过所述动作识别模 型的分类 网络对所述第二卷积向量进行处理, 以对所述待 识别动作进行识别, 生成对应的动作识别结果并 输出。 权利要求书2页 说明书14页 附图7页 CN 115294499 A 2022.11.04 CN 115294499 A 1.一种动作识别方法, 包括: 将待处理视频输入动作识别模型, 并通过所述动作识别模型中的二维卷积网络, 对所 述待处理视频进行卷积处理, 生成对应的第一卷积向量, 其中, 所述待处理视频中包含目标 对象的待识别动作; 通过所述动作识别模型中的三维卷积网络, 对所述待处理视频及所述第 一卷积向量进 行卷积处理, 生成对应的第二卷积向量; 通过所述动作识别模型的分类网络对所述第 二卷积向量进行处理, 以对所述待识别动 作进行识别, 生成对应的动作识别结果并输出。 2.根据权利要求1所述的动作识别方法, 所述二维卷积网络包括第一二维卷积层和第 二二维卷积层; 相应地, 所述通过所述动作识别模型中的二维卷积网络, 对所述待处理视频进行卷积 处理, 生成对应的第一卷积向量, 包括: 通过所述第 一二维卷积层, 对所述待处理视频进行时序卷积处理, 生成第 一时序向量, 并通过所述第一 二维卷积层, 对所述待处 理视频进行空间卷积处 理, 生成第一空间向量; 将所述第一空间向量及所述第一时序向量进行融合, 生成对应的融合结果; 通过所述第二 二维卷积层对所述融合结果进行 卷积处理, 生成对应的第一卷积向量。 3.根据权利要求2所述的动作识别方法, 所述待处 理视频包 含至少两帧视频帧; 相应地, 所述通过所述第 一二维卷积层, 对所述待处理视频进行时序 卷积处理, 生成第 一时序向量, 包括: 确定所述至少两帧视频帧中任意两帧相邻 视频帧对应的光流图像, 通过所述第 一二维 卷积层, 对所述光流图像进行时序特征提取, 并对 特征提取结果进 行卷积处理, 生成第一时 序向量。 4.根据权利要求2所述的动作识别方法, 所述通过所述第 一二维卷积层, 对所述待处理 视频进行空间卷积处 理, 生成第一空间向量, 包括: 通过所述第一二维卷积层, 对所述至少两帧视频帧中的目标视频帧进行空间特征提 取, 并对特 征提取结果进行 卷积处理, 生成第一空间向量。 5.根据权利要求4所述的动作识别方法, 所述通过所述第 一二维卷积层, 对所述至少两 帧视频帧中的目标视频帧进行空间特 征提取, 并对特 征提取结果进行 卷积处理, 包括: 通过所述第一二维卷积层, 对每帧视频帧进行空间特征提取, 并根据提取结果确定所 述至少两帧视频帧中的目标视频帧; 通过所述第一二维卷积层, 对所述目标视频帧的空间特征进行卷积处理, 生成第一空 间向量。 6.根据权利要求4所述的动作识别方法, 所述通过所述第 一二维卷积层, 对所述待处理 视频进行时序卷积处 理, 包括: 确定所述至少两帧视频帧中、 与所述目标视频帧相邻的、 预设数量的待处理视频帧, 并 根据所述 目标视频帧与所述待处理视频帧中包含的、 所述 目标对象的运动信息, 确定对应 的光流图像; 通过所述第一二维卷积层, 对所述光流图像进行时序特征提取, 并对特征提取结果进 行卷积处理。权 利 要 求 书 1/2 页 2 CN 115294499 A 27.根据权利要求2所述的动作识别方法, 所述对所述待处理视频进行时序 卷积处理, 包 括: 提取所述待处理视频中目标视频帧的空间特征, 并根据 预设卷积核及第 一预设步长对 所述空间特 征进行卷积处理, 生成第一空间向量; 相应地, 所述 通过所述第二 二维卷积层对所述融合结果进行 卷积处理, 包括: 通过所述第二二维卷积层, 并根据所述预设卷积核及第二预设步长, 对所述融合结果 进行卷积处理。 8.根据权利要求1至7任意一项所述的动作识别方法, 所述三维卷积网络包括第 一三维 卷积层、 第二 三维卷积层和第三 三维卷积层; 相应地, 所述通过所述动作识别模型中的三维卷积网络, 对所述待处理视频及所述第 一卷积向量进行 卷积处理, 生成对应的第二卷积向量, 包括: 通过所述第一三维卷积层, 对所述待处理视频进行时序特征和 空间特征提取, 将特征 提取结果与所述第一卷积向量进行融合, 并对融合结果进行 卷积处理, 生成第一时空向量; 通过所述第 二三维卷积层对所述第 一时空向量进行卷积处理, 生成对应的第 二时空向 量; 通过所述第 三三维卷积层对所述第 二时空向量进行卷积处理, 生成对应的第 二卷积向 量。 9.根据权利要求1所述的动作识别方法, 所述分类网络包括池化层和全连接层; 相应地, 所述通过所述动作识别模型的分类网络对所述第二卷积向量进行处理, 以对 所述待识别动作进行识别, 生成对应的动作识别结果并输出, 包括: 通过所述池化层对所述第二卷积向量进行池化处 理, 生成对应的处 理结果; 通过所述全连接层及所述处理结果对所述待识别 视频进行动作识别, 生成对应的动作 识别结果并输出。 10.一种动作识别装置, 包括: 输入模块, 被配置为将待处理视频输入动作识别模型, 并通过所述动作识别模型中的 二维卷积网络, 对所述待处理视频进行卷积处理, 生成对应的第一卷积向量, 其中, 所述待 处理视频中包 含目标对象的待识别动作; 处理模块, 被配置为通过所述动作识别模型中的三维卷积网络, 对所述待处理视频及 所述第一卷积向量进行 卷积处理, 生成对应的第二卷积向量; 输出模块, 被配置为通过所述动作识别模型的分类网络对所述第二卷积向量进行处 理, 以对所述待识别动作进行识别, 生成对应的动作识别结果并输出。 11.一种计算设备, 包括: 存储器和处 理器; 所述存储器用于存储计算机可执行指令, 所述处理器用于执行所述计算机可执行指令 实现权利要求1至9任意 一项所述动作识别方法的步骤。 12.一种计算机可读存储介质, 其存储有计算机指令, 该指令被处理器执行时实现权利 要求1至9任意 一项所述动作识别方法的步骤。权 利 要 求 书 2/2 页 3 CN 115294499 A 3

.PDF文档 专利 动作识别方法以及装置

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 动作识别方法以及装置 第 1 页 专利 动作识别方法以及装置 第 2 页 专利 动作识别方法以及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:13:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。