专利 基于自监督学习的模糊3D骨架动作识别方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111622518.5 (22)申请日 2021.12.28 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人吴庆耀　苏宇堃　郝运　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 代理人李斌 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于自监督学习的模糊3D骨架动作识别方法及装置 (57)摘要本发明公开了一种基于自监督学习的模糊 3D骨架动作识别方法，方法包括：从视频流中的人体目标图像中提取3D骨架动作集；在不同视角下构造3D骨架动作集的正负对；设计共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；通过蒙特卡罗采样逼近概率问题，将特征表示映射到基于多维高斯分布的概率嵌入空间中，学习3D骨架的潜在特征表示；将学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。本方法通过在不同视角下构造三维骨架动作的正负对，研究三维骨架动作中的不确定性，在基于多维高斯分布的概率嵌入空间中学习骨架动作的潜在特征表示，减少遇到模糊三维骨架输入时的不确定性，提高了识别性能。权利要求书3页说明书8页附图3页 CN 114373224 A 2022.04.19 CN 114373224 A 1.基于自监督学习的模糊3D骨架动作识别方法，其特征在于，包括下述步骤：从视频流中的人体目标图像中提取3D骨架动作集；在不同视角下构造 3D骨架动作集的正负对；构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的 3D骨架潜在特征表示；在模型中，通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习 3D骨架的潜在特征表示；将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。 2.根据权利要求1所述基于自监督学习的模糊3D骨架动作识别方法，其特征在于，所述从视频流中的人体目标图像中提取3D骨架动作集，具体为：对视频流中的人体目标图像进行部署变换后，每T帧中生成两个具有不同视点的相同骨架动作片段xi，进行N次获得3D骨架动作集，表示为：其中， xi表示第i个骨架动作片段， N表示骨架动作片段的数目。 3.根据权利要求2所述基于自监督学习的模糊3D骨架动作识别方法，其特征在于，所述在不同视角下构造 3D骨架动作集的正负对，具体为：对于3D骨架动作集中的某一骨架动作片段xi，以及其在不同视角下对应的骨架动作片段将同一骨架片段下的不同视角对视为正对，其余的不同骨架片段视为负对。 4.根据权利要求3所述基于自监督学习的模糊3D骨架动作识别方法，其特征在于，所述使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示，具体为：将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练，采用自我监督学习方式训练得到共享权重编码器f(·, θ )，首先对输入数据进行归一化，接着对空间和时间维度进行变换，最后使用平均池化，全连接层对特征进行分类，最终将所述编码器将骨架动作片段xi建模为其对应的潜在特征表示zi，代表骨架动作片段在潜在空间中运动的时空特征。 5.根据权利要求4所述自监督学习的模糊3D骨架动作识别方法，其特征在于，所述学习 3D骨架的潜在特征表示具体为：利用模型中概率嵌入空间的匹配概率m，将嵌入距离放宽为D(zi， zn)：＝p(m|zi， zn)＝σ (W||zi‑zn||2+b)其中σ( ·)表示Sigmoid函数， W、 b为可学习参数， zn表示经过编码器后的其他骨架动作片段；将概率嵌入分布改写为zi～P(zi|xi),将输入匹配概率扩展到概率嵌入：其中， p(·|·)表示条件概率；使用蒙特卡罗抽样，从每个分布中抽取 K个样本，来近似概率嵌入：权　利　要　求　书 1/3 页 2 CN 114373224 A 2其中， K表示抽取样本数， k1、 k2分别表示抽取的样本个例；使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模，并使用重新参数化在训练期间实现反向传播，最终得到：其中，表示第k个骨架片段和不同于第k个骨架片段的其他骨架片段。 6.根据权利要求5所述基于自监督学习的模糊3D骨架动作识别方法，其特征在于，所述将任务指定为度量学习问题，使用对比损失和约束损失对进行训练，具体为：将任务指定为度量学习问题；构建对比损失函数：其中， M表示负对数量，表示经过共享权重编码器后的潜在特征表示， D( ·,·)表示欧式距离计算函数， τ表示缩放距离超参数；在训练过程中，在KL散度嵌入中引入约束损失和拿书：其中， μ(·)表示均值， υ( ·)表示对角协方差，表示预设单位高斯分布；采用随机抖动增强算法避免学习低级特征；通过联合优化对比损失和约束损失，得到概率嵌入模型的最终训练损失：其中， λ1、 λ2分别表示权重超参数，用于平衡优化。 7.基于自监督学习的模糊3D骨架动作识别系统，其特征在于，包括数据提取模块、正负对构造模块、特征表示模块、训练模块以及识别模块；所述数据提取模块，用于从视频流中的人体目标图像中提取3D骨架动作集；所述正负对构造模块，用于在不同视角下构造 3D骨架动作集的正负对；所述特征表示模块，用于构建基于多维高斯分布的概率嵌入模型，使用共享权重编码器分别提取正负对对应的3D骨架潜在特征表示；所述训练模块，用于在模型中，通过蒙特卡罗采样逼近概率问题，将特征表示映射到概率嵌入空间中，学习3D骨架的潜在特征表示；所述识别模块，用于将自监督的3D骨架表示学习任务指定为度量学习问题，使用对比损失和约束损失对进行训练，获得识别结果。 8.一种电子设备，其特征在于，所述电子设备包括：权　利　要　求　书 2/3 页 3 CN 114373224 A 3

专利 基于自监督学习的模糊3D骨架动作识别方法及装置

专利基于自监督学习的模糊3D骨架动作识别方法及装置