专利基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210381360.5 (22)申请日 2022.04.12 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街申请人杭州电子科技大学信息工程学院 (72)发明人张海平　刘旭　马琮皓　胡泽鹏　管力明　施月玲　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 专利代理师杨天娇 (51)Int.Cl. G06V 40/10(2022.01) G06V 20/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 (57)摘要本发明公开了基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，包括：获取人体行为视频并预处理；从预处理后的视频中提取每帧图像的人体骨架数据形成骨架序列；填充骨架序列形成新的骨架序列；基于新的骨架序列获取每帧图像的二阶信息数据；基于二阶信息数据的类别和新的骨架序列分别对应建立训练集和标签；建立膨胀时空图卷积网络模型；将各类训练集和标签输入膨胀时空图卷积网络模型进行训练；将待识别的视频建立训练集后输入预训练好的模型，获取的融合结果即为最终预测结果。该方法可更好地获取网络不同层的语义信息，并在不增加计算量的情况下结合数量更多、特征更明显的关节数据实现人体行为预测，大大提高人体行为的预测精确度。权利要求书3页说明书9页附图3页 CN 114821640 A 2022.07.29 CN 114821640 A 1.一种基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法包括如下步骤： S1、获取人体行为视频并进行预处理； S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据，所述人体骨架数据包括各关节对应的元组(X， Y， Z)，所有图像的人体骨架数据按照时间排序形成骨架序列其中， X为对应关节的X坐标值， Y为对应关节的Y坐标值， Z为对应关节的置信度或Z坐标值， v为关节向量， C为坐标维度， T为时间， N 为关节点数； S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V ’，所述新的骨架序列V’具有连续的预设帧数的人体骨架数据； S4、基于新的骨架序列V ’获取每帧图像的二阶信息数据，所述二阶信息数据包括eti、 ati、 mjoint， tj、 mbone， ti、 mjoint2， tj和mbone2， ti，计算公式如下： eti＝vti′ ‑vti mjoint， tj＝v(t+1)j‑vtj mbone， ti＝e(t+1)i‑eti mjoint2， tj＝v(t+2)j‑vtj mbone2， ti＝e(t+2)i‑eti 其中， eti为第t帧第i个骨骼的骨骼向量， vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标， vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标， atic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度， c∈{x， y， z}， ati＝(atix， atiy， atiz)， etic为第t帧第i个骨骼的骨骼向量在c方向分量的值， etix为第t帧第i个骨骼的骨骼向量在x方向分量的值， etiy为第t帧第i个骨骼的骨骼向量在y方向分量的值， etiz为第t帧第i个骨骼的骨骼向量在z方向分量的值， mjoint， tj为第j个关节在第t+1帧和第t帧的向量差， mbone， ti为第i个骨骼在第t+1帧和第t帧的向量差， mjoint2， tj为第j个关节在第t+2帧和第t帧的向量差， mbone2， ti为第i个骨骼在第t+2帧和第t帧的向量差， vtj为第t帧第j个关节的坐标， v(t+1)j为第t+1帧第j个关节的坐标， v(t+2)j为第t+2帧第j个关节的坐标， e(t+1)i为第t+1帧第i个骨骼的骨骼向量， e(t+2)i为第t +2帧第i个骨骼的骨骼向量； S5、基于获取的和新的骨架序列V ’七类数据分别对应建立七类训练集和标签，其中， e为每个骨骼的骨骼向量， a为每个骨骼的骨骼向量在x， y， z方向分量上的角度， mjoint为每个关节在相邻帧图像的向量差， mjoint2为每个关节在间隔一帧图像的向量差， mbone为每个骨骼在相邻帧图像的向量差， mbone2为每个骨骼在间隔一帧图像的向量差；权　利　要　求　书 1/3 页 2 CN 114821640 A 2S6、建立膨胀时空图卷积网络模型，所述膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元，所述第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、 Dr opout层和softmax分类器，所述多尺度图卷积模块包括输出通道依次为64、 64、 64、 64、 128、 128、 128、 256、 256、 256的十层特征提取模块，各层所述特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元，所述膨胀时空图卷积网络模型还执行如下操作； S61、利用各所述第一图卷积网络获取对应的初始预测结果和softmax分数； S62、利用所述多分支特征融合单元计算各所述第一图卷积网络输出的初始预测结果的权重系数αs，公式如下：其中，表示每流初始预测结果组成的数组，每流初始预测结果的取值范围为0～1， Acu[n]表示第n流识别准确度， Acu[s]表示第s流识别准确度， γ为0.001； S63、将各softmax分数进行加权融合获取融合结果Result，计算公式如下：其中， rs为第s流的softmax分数； S7、将各类所述训练集和标签一一对应输入所述膨胀时空图卷积网络模型的第一图卷积网络进行训练，获取预训练好的膨胀时空图卷积网络模型； S8、将待识别的人体行为视频建立七类训练集后输入预训练好的膨胀时空图卷积网络模型，获取的融合结果Result即为最终预测结果。 2.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S1 中，所述预处理为将人体行为视频的分辨率调整为340 ×256，帧率转换为 30FPS。 3.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S2中，所述人体骨架数据基于Openpose姿态估计工具箱提取。 4.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：步骤S3中，所述预设帧数为3 00帧。 5.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法，其特征在于：所述时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、 Concat函数和第二特征提取单元，所述第一残差模块和第一特征提取单元的输入端与注意力单元连接，所述第一残差模块的输出端与第二特征提取单元连接，所述第二特征提取单元用于执行相加操作，所述第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元，所述第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷权　利　要　求　书 2/3 页 3 CN 114821640 A 3

专利 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

专利基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法