(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111622518.5
(22)申请日 2021.12.28
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 吴庆耀 苏宇堃 郝运
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
代理人 李斌
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于自监督学习的模糊3D骨架动作识别方
法及装置
(57)摘要
本发明公开了一种基于自监督学习的模糊
3D骨架动作识别方法, 方法包括: 从视频流中的
人体目标图像中提取3D骨架动作集; 在不同视角
下构造3D骨架动作集的正负对; 设计共享权重编
码器分别提取正负对对应的3D骨架潜在特征表
示; 通过蒙特卡罗采样逼近概率问题, 将特征表
示映射到基于多维高斯分布的概率嵌入空间中,
学习3D骨架的潜在特征表示; 将学习任务指定为
度量学习问题, 使用对比损失和约束损失对进行
训练, 获得识别结果。 本方法通过在不同视角下
构造三维骨架动作的正负对, 研究三维骨架动作
中的不确定性, 在基于多维高斯 分布的概率嵌入
空间中学习骨架动作的潜在特征表 示, 减少遇到
模糊三维骨架输入时的不确定性, 提高了识别性
能。
权利要求书3页 说明书8页 附图3页
CN 114373224 A
2022.04.19
CN 114373224 A
1.基于自监 督学习的模糊3D骨架动作识别方法, 其特 征在于, 包括下述 步骤:
从视频流中的人体目标图像中提取3D骨架动作集;
在不同视角下构造 3D骨架动作集的正负对;
构建基于多维高斯分布的概率嵌入模型, 使用共享权重编码器分别提取正负对对应的
3D骨架潜在特 征表示;
在模型中, 通过蒙特卡罗采样逼近概率问题, 将特征表示映射到概率嵌入空间中, 学习
3D骨架的潜在特 征表示;
将自监督的3D骨架表示学习任务指定为度量学习问题, 使用对比损失和约束损失对进
行训练, 获得识别结果。
2.根据权利要求1所述基于自监督学习的模糊3D骨架动作识别方法, 其特征在于, 所述
从视频流中的人体目标图像中提取3D骨架动作集, 具体为:
对视频流中的人体目标图像进行部署变换后, 每T帧中生成两个具有不同视点的相同
骨架动作片段xi, 进行N次获得3D骨架动作集, 表示 为:
其中, xi表示第i个骨架动作片段, N表示骨架动作片段的数目。
3.根据权利要求2所述基于自监督学习的模糊3D骨架动作识别方法, 其特征在于, 所述
在不同视角下构造 3D骨架动作集的正负对, 具体为:
对于3D骨架动作集中的某一骨架动作片段xi, 以及其在不同视角下对应的骨架动作片
段
将同一骨架片段下的不同视角对
视为正对, 其余的不同骨架片段
视
为负对。
4.根据权利要求3所述基于自监督学习的模糊3D骨架动作识别方法, 其特征在于, 所述
使用共享权 重编码器分别提取正负对 对应的3D骨架潜在特 征表示, 具体为:
将构造好的2N个正负对骨架动作片段输入概率嵌入模型中进行训练, 采用自我监督学
习方式训练得到共享权重编 码器f(·, θ ), 首先对输入数据进 行归一化, 接着对空间和时间
维度进行变换, 最后使用平均池化, 全连接层 对特征进 行分类, 最 终将所述编码器将骨架动
作片段xi建模为其对应的潜在特征表示zi, 代表骨架动作片段在潜在空间中运动的时空特
征。
5.根据权利要求4所述自监督学习的模糊3D骨架动作识别方法, 其特征在于, 所述学习
3D骨架的潜在特 征表示具体为:
利用模型中概率嵌入空间的匹配概率m, 将嵌入距离放宽为D(zi, zn): =p(m|zi, zn)=σ
(W||zi‑zn||2+b)其中σ( ·)表示Sigmoid函数, W、 b为可学习参数, zn表示经过编码器后的其
他骨架动作片段;
将概率嵌入分布改写为zi~P(zi|xi),将输入匹配概 率扩展到概 率嵌入:
其中, p(·|·)表示条件概 率;
使用蒙特卡罗抽样, 从每 个分布中抽取 K个样本, 来近似概 率嵌入:权 利 要 求 书 1/3 页
2
CN 114373224 A
2其中, K表示抽取样本数, k1、 k2分别表示抽取的样本个例;
使用具有均值μ(x)和对角协方差υ(x)的单个D维高斯对p(z|x)进行建模, 并使用重新
参数化在训练期间实现 反向传播, 最终得到:
其中,
表示第k个骨架片段和不同于第k个骨架片段的其 他骨架片段。
6.根据权利要求5所述基于自监督学习的模糊3D骨架动作识别方法, 其特征在于, 所述
将任务指定为度量学习问题, 使用对比损失和约束损失对进行训练, 具体为:
将任务指定为度量学习问题;
构建对比损失函数:
其中, M表示负对数量,
表示
经过共享权 重编码器后的潜在特 征表示, D( ·,·)表
示欧式距离计算 函数, τ表示缩放距离超参数;
在训练过程中, 在KL散度嵌入中引入约束损失和拿书:
其中, μ(·)表示均值, υ( ·)表示对角协方差,
表示预设单位高斯分布;
采用随机抖动增强算法避免学习低级特 征;
通过联合优化对比损失和约束损失, 得到概 率嵌入模型的最终训练损失:
其中, λ1、 λ2分别表示权 重超参数, 用于平衡优化。
7.基于自监督学习的模糊3D骨架动作识别系统, 其特征在于, 包括数据提取模块、 正负
对构造模块、 特 征表示模块、 训练模块以及识别模块;
所述数据提取模块, 用于从视频流中的人体目标图像中提取3D骨架动作集;
所述正负对构造模块, 用于在不同视角下构造 3D骨架动作集的正负对;
所述特征表示模块, 用于构建基于多维高斯分布的概率嵌入模型, 使用共享权重编码
器分别提取正负对 对应的3D骨架潜在特 征表示;
所述训练模块, 用于在模型中, 通过蒙特卡罗采样逼近概率问题, 将特征表示映射到概
率嵌入空间中, 学习3D骨架的潜在特 征表示;
所述识别模块, 用于将自监督的3D骨架表示学习任务指定为度量学习问题, 使用对比
损失和约束损失对进行训练, 获得识别结果。
8.一种电子设备, 其特 征在于, 所述电子设备包括:权 利 要 求 书 2/3 页
3
CN 114373224 A
3
专利 基于自监督学习的模糊3D骨架动作识别方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:00上传分享