专利 动作识别方法以及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210962950.7 (22)申请日 2022.08.11 (71)申请人支付宝（杭州）信息技术有限公司地址 310013 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人武文琦　 (74)专利代理机构北京智信禾专利代理有限公司 11637 专利代理师赵杰 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 40/20(2022.01) (54)发明名称动作识别方法以及装置 (57)摘要本说明书实施例提供动作识别方法以及装置，其中所述动作识别方法包括：将待处理视频输入动作识别模型，并通过所述动作识别模型中的二维卷积网络，对所述待处理视频进行卷积处理，生成对应的第一卷积向量，其中，所述待处理视频中包含目标对象的待识别动作，通过所述动作识别模型中的三维卷积网络，对所述待处理视频及所述第一卷积向量进行卷积处理，生成对应的第二卷积向量，通过所述动作识别模型的分类网络对所述第二卷积向量进行处理，以对所述待识别动作进行识别，生成对应的动作识别结果并输出。权利要求书2页说明书14页附图7页 CN 115294499 A 2022.11.04 CN 115294499 A 1.一种动作识别方法，包括：将待处理视频输入动作识别模型，并通过所述动作识别模型中的二维卷积网络，对所述待处理视频进行卷积处理，生成对应的第一卷积向量，其中，所述待处理视频中包含目标对象的待识别动作；通过所述动作识别模型中的三维卷积网络，对所述待处理视频及所述第一卷积向量进行卷积处理，生成对应的第二卷积向量；通过所述动作识别模型的分类网络对所述第二卷积向量进行处理，以对所述待识别动作进行识别，生成对应的动作识别结果并输出。 2.根据权利要求1所述的动作识别方法，所述二维卷积网络包括第一二维卷积层和第二二维卷积层；相应地，所述通过所述动作识别模型中的二维卷积网络，对所述待处理视频进行卷积处理，生成对应的第一卷积向量，包括：通过所述第一二维卷积层，对所述待处理视频进行时序卷积处理，生成第一时序向量，并通过所述第一二维卷积层，对所述待处理视频进行空间卷积处理，生成第一空间向量；将所述第一空间向量及所述第一时序向量进行融合，生成对应的融合结果；通过所述第二二维卷积层对所述融合结果进行卷积处理，生成对应的第一卷积向量。 3.根据权利要求2所述的动作识别方法，所述待处理视频包含至少两帧视频帧；相应地，所述通过所述第一二维卷积层，对所述待处理视频进行时序卷积处理，生成第一时序向量，包括：确定所述至少两帧视频帧中任意两帧相邻视频帧对应的光流图像，通过所述第一二维卷积层，对所述光流图像进行时序特征提取，并对特征提取结果进行卷积处理，生成第一时序向量。 4.根据权利要求2所述的动作识别方法，所述通过所述第一二维卷积层，对所述待处理视频进行空间卷积处理，生成第一空间向量，包括：通过所述第一二维卷积层，对所述至少两帧视频帧中的目标视频帧进行空间特征提取，并对特征提取结果进行卷积处理，生成第一空间向量。 5.根据权利要求4所述的动作识别方法，所述通过所述第一二维卷积层，对所述至少两帧视频帧中的目标视频帧进行空间特征提取，并对特征提取结果进行卷积处理，包括：通过所述第一二维卷积层，对每帧视频帧进行空间特征提取，并根据提取结果确定所述至少两帧视频帧中的目标视频帧；通过所述第一二维卷积层，对所述目标视频帧的空间特征进行卷积处理，生成第一空间向量。 6.根据权利要求4所述的动作识别方法，所述通过所述第一二维卷积层，对所述待处理视频进行时序卷积处理，包括：确定所述至少两帧视频帧中、与所述目标视频帧相邻的、预设数量的待处理视频帧，并根据所述目标视频帧与所述待处理视频帧中包含的、所述目标对象的运动信息，确定对应的光流图像；通过所述第一二维卷积层，对所述光流图像进行时序特征提取，并对特征提取结果进行卷积处理。权　利　要　求　书 1/2 页 2 CN 115294499 A 27.根据权利要求2所述的动作识别方法，所述对所述待处理视频进行时序卷积处理，包括：提取所述待处理视频中目标视频帧的空间特征，并根据预设卷积核及第一预设步长对所述空间特征进行卷积处理，生成第一空间向量；相应地，所述通过所述第二二维卷积层对所述融合结果进行卷积处理，包括：通过所述第二二维卷积层，并根据所述预设卷积核及第二预设步长，对所述融合结果进行卷积处理。 8.根据权利要求1至7任意一项所述的动作识别方法，所述三维卷积网络包括第一三维卷积层、第二三维卷积层和第三三维卷积层；相应地，所述通过所述动作识别模型中的三维卷积网络，对所述待处理视频及所述第一卷积向量进行卷积处理，生成对应的第二卷积向量，包括：通过所述第一三维卷积层，对所述待处理视频进行时序特征和空间特征提取，将特征提取结果与所述第一卷积向量进行融合，并对融合结果进行卷积处理，生成第一时空向量；通过所述第二三维卷积层对所述第一时空向量进行卷积处理，生成对应的第二时空向量；通过所述第三三维卷积层对所述第二时空向量进行卷积处理，生成对应的第二卷积向量。 9.根据权利要求1所述的动作识别方法，所述分类网络包括池化层和全连接层；相应地，所述通过所述动作识别模型的分类网络对所述第二卷积向量进行处理，以对所述待识别动作进行识别，生成对应的动作识别结果并输出，包括：通过所述池化层对所述第二卷积向量进行池化处理，生成对应的处理结果；通过所述全连接层及所述处理结果对所述待识别视频进行动作识别，生成对应的动作识别结果并输出。 10.一种动作识别装置，包括：输入模块，被配置为将待处理视频输入动作识别模型，并通过所述动作识别模型中的二维卷积网络，对所述待处理视频进行卷积处理，生成对应的第一卷积向量，其中，所述待处理视频中包含目标对象的待识别动作；处理模块，被配置为通过所述动作识别模型中的三维卷积网络，对所述待处理视频及所述第一卷积向量进行卷积处理，生成对应的第二卷积向量；输出模块，被配置为通过所述动作识别模型的分类网络对所述第二卷积向量进行处理，以对所述待识别动作进行识别，生成对应的动作识别结果并输出。 11.一种计算设备，包括：存储器和处理器；所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令实现权利要求1至9任意一项所述动作识别方法的步骤。 12.一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至9任意一项所述动作识别方法的步骤。权　利　要　求　书 2/2 页 3 CN 115294499 A 3

专利 动作识别方法以及装置

专利动作识别方法以及装置