专利人体行为识别方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211013630.3 (22)申请日 2022.08.23 (71)申请人深圳市赛为智能股份有限公司地址 518000 广东省深圳市龙岗区南湾街道下李朗社区联李东路8号赛为大楼 A101至15楼 (72)发明人汪玉冰　王秋阳　胡懋成　郑博超　周婧雯　凤阳　刘丹　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师周永敬 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/46(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) (54)发明名称人体行为识别方法、装置、计算机设备及存储介质 (57)摘要本发明实施例公开了一种人体行为识别方法、装置、计算机设备及存储介质，方法包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。本发明通过语义分割模型和光流预测模型，基于人体语义掩膜特征和人体光流特征的特征信息融合方式进行人体行为识别，可以很好的进行多人行为识别。通过结合跟踪模型，融合语义分割特征以及光流特征，可以进行多角度多人实时行为检测。另外，在光流网络中使用了Res i dua l GRU模块对融合了多种特征的光流进行更新迭代，确保了关键信息的不丢失，提高了预测的精准度。权利要求书3页说明书16页附图2页 CN 115359565 A 2022.11.18 CN 115359565 A 1.人体行为识别方法，其特征在于，包括：获取检测区域内的图像数据；对图像数据进行切帧处理，以得到多帧静态图片；将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果。 2.根据权利要求1所述的人体行为识别方法，其特征在于，所述将多帧静态图片以图片序列的形式输入至人体行为预测模型中进行处理，以得到人体行为识别结果，包括：将多帧静态图片以图片序列的形式输入至跟踪模型进行处理，以得到带有id索引的人物图像；将带有id索引的不同人物图像输入语义分割模型进行处理，以得到人体语义掩膜特征；将带有id索引的人物图像输入至光流预测模型进行处理，以得到人体光流特征；将人体语义掩膜特征和人体光流特征输入至行为识别分类模型进行处理，以得到人体行为识别结果。 3.根据权利要求2所述的人体行为识别方法，其特征在于，所述将带有id索引的不同人物图像输入语义分割模型进行处理，以得到人体语义掩膜特征，包括：对带有id索引的人物图像分别进行第一卷积、第二卷积和第三卷积处理，以得到第一卷积特征、第二卷积特征和第三卷积特征；将第一卷积特征输入至Sw itch conv中进行卷积操作，以得到第一处理后卷积特征；将第二卷积特征输入到Di lated conv中进行处理，以得到第二处理后卷积特征；将第三卷积特征输入至 Coord conv中进行处理，以得到第三处理后卷积特征；将第一处理后卷积特征输入到Dimension ‑wise conv进行卷积操作并且通过relu激活函数进行处理，以得到第一处理特征；将第二处理后卷积特征输入到Dynamic conv进行卷积处理，以得到中间处理特征；将中间处理特征输入到3*3卷积以及B atchNormalization操作中，以得到第二处理特征；将第三处理后卷积特征输入到 Mix conv进行卷积操作，以得到第三处理特征；将第一处理特征经过卷积处理得到的结果经过反卷积上采样以及再次卷积处理，以得到第一处理结果特征；将第一处理特征经过卷积和Batc hNormalization操作，以得到第二处理结果特征；将第二处理结果特征进行反池化上采样和卷积块操作，以得到反池化上采样特征和卷积块特征；将第二处理特征与卷积块特征进行相加处理，以得到相加特征；对相加特征进行sigmo id操作，以得到sigmo id特征；将sigmoid特征与反池化上采样特征进行相乘处理，以得到相乘特征；将相乘特征通过Relu函数处理，以得到第一结果特征；将1减去sigmoid特征得到的结果与第三处理特征进行相乘处理，以得到第二结果特征；将第二结果特征与第一结果特征相加处理后得到的结果并经过上采样和卷积处理，以权　利　要　求　书 1/3 页 2 CN 115359565 A 2得到第三结果特征；将第三结果特征输入到经过三次残差网络处理，以得到第四结果特征；将第四结果特征与第三结果特征进行co ncate处理，以得到融合特征；将融合特征经过3*3卷积、上采样以及1*1卷积处理，以得到人体语义掩膜特征。 4.根据权利要求2所述的人体行为识别方法，其特征在于，所述将带有id索引的人物图像输入至光流预测模型进行处理，以得到人体光流特征，包括：将前后两帧带有id索引的人物图像输入到第一网络进行处理，以得到第一光流特征；采用第一光流特征对前后两帧带有id索引的人物图像中的前一帧人物图像进行双线性插值处理，以得到双线性插值特征；将前后两帧带有id索引的人物图像通过AsymOFMM处理得到的结果与双线性插值特征进行concate处理，以得到 concate特征；将concate特征与前后两帧带有id索引的人物图像中的后一帧人物图像进行堆叠处理，以得到堆叠图；将堆叠图输入到第二网络进行处理，以得到第二光流特征；将第二光流特征输入到Residual GRU模块进行循环更新迭代；当迭代完成时，人体光流特征结果被输出。 5.根据权利要求4所述的人体行为识别方法，其特征在于，所述将前后两帧带有id索引的人物图像输入到第一网络进行处理，以得到第一光流特征，包括：将前后两帧带有id索引的人物图像分别通过4层Convolution+ReLU处理，以得到第一特征图和第二特征图；分别对第一特征图和第二特征图进行下采样操作后Max pooling层处理，以得到第三特征图和第四特征图；将第三特征图和第四特征图通过三个残差层处理，以得到第五特征图和第六特征图；将第五特征图作为卷积核与第六特征图进行卷积处理，以得到匹配特征图；将匹配特征图输入到三个卷积层和一个average pooling层进行高级特征提取，以得到高级特征；对高级特征使用四层反卷积运算，以得到高层语义信息；将高层语义信息与第五特征图、第六特征图进行特征融合，并经过上采样处理，以得到第一光流特征。 6.根据权利要求4所述的人体行为识别方法，其特征在于，所述将堆叠图输入到第二网络进行处理，以得到第二光流特征，包括：将堆叠图输入到三层Co nvo lution+BatchNorm层中进行处理，以得到第七特征图；将第七特征图进行一次average pooling之后再通过三层1x1卷积对特征进行升维处理，以得到提取特征图；将提取特征图进行深度学习的插值方法进行处理，以得到第二光流特征。 7.根据权利要求2所述的人体行为识别方法，其特征在于，所述将人体语义掩膜特征和人体光流特征输入至行为识别分类模型进行处理，以得到人体行为识别结果，包括：将人体语义掩膜特征和人体光流特征进行co ncate合并，以得到合并特征；将合并特征输入到轻量级视频分类网络进行处理，以得到不同人体行为类别所对应的权　利　要　求　书 2/3 页 3 CN 115359565 A 3

专利 人体行为识别方法、装置、计算机设备及存储介质

专利人体行为识别方法、装置、计算机设备及存储介质