说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210524800.8 (22)申请日 2022.05.13 (71)申请人 大连海事大学 地址 116026 辽宁省大连市高新园区凌海 路1号 (72)发明人 刘晓凯 李明月  (74)专利代理 机构 大连东方专利代理有限责任 公司 21212 专利代理师 吴婷婷 李洪福 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/40(2022.01) G06V 10/80(2022.01) (54)发明名称 基于视觉和无线双模态联合感知的动作表 示及识别方法 (57)摘要 本发明提供一种基于视觉和无线双模态联 合感知的动作表示及识别方法。 表示方法包括: 分别获取针对人体动作的雷达图像数据和视频 图像数据; 通过第一特征提取网络对 所述雷达图 像数据进行特征提取; 通过第二特征提取网络对 所述视频图像数据进行特征提取; 将第一提取特 征输入速度关系编码器进行编码处理, 将第二提 取特征输入帧间关系编码器进行编码处理; 将第 一引导特征和第二引导特征输入模态关系编码 器进行编码处理, 从而生成联合表征。 本发明通 过挖掘两个模态间的关系, 从而提升模态融合的 有效性, 进一 步提高识别的可靠性。 权利要求书2页 说明书7页 附图1页 CN 115116124 A 2022.09.27 CN 115116124 A 1.一种基于 视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 包括以下步骤: 分别获取针对人体动作的雷达图像数据和视频图像数据; 通过第一特征提取网络对所述雷达 图像数据进行特征提取, 从而获得第一提取特征; 通过第二特 征提取网络对所述视频图像数据进行 特征提取, 从而获得第二 提取特征; 将所述第一提取特征输入速度关系编码器进行编码处理, 所述速度关系编码器用于挖 掘第一提取特征中的速度相关性信息, 并基于所述速度相关性信息对第一提取特征进 行引 导从而输出第一引导特征, 所述速度关系编码器包括依次连接的若干结构相同的子速度关 系编码器; 同时将所述第二提取特征输入帧间关系编码器进行编码处理, 所述帧间关系编 码器用于挖掘第二提取特征中的帧间相关性信息, 并基于所述帧间相关性信息对第二提取 特征进行引导从而输出第二引导特征, 所述帧间关系编 码器包括依次连接的若干结构相同 的子帧间关系编码器; 将所述第一引导特征和第 二引导特征输入模态关系编码器进行编码处理, 所述模态关 系编码器用于挖掘第一引导特征和 第二引导特征的模态间特征相关性信息, 并基于所述模 态间特征相关性信息对第一引导特征和第二引导特征进行二次引导, 从而生成联合表征, 所述模态关系编码器包括依次连接的若干相同的子模态关系编码器。 2.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 方法还 包括: 将获取的联合表征输入与 所述第一特征提取网络相反的网络结构进行特征重构, 从而 获取第一重构特征; 同时将获取的联合表征输入与所述第二特征提取网络相反的网络结构 进行特征重构, 从而获取第二重构特 征; 通过一致性损失在第 一提取特征与第 一重构特征间形成约束以减少信 息损失; 同时通 过一致性损失在第二 提取特征与第二重构特 征间形成约束以减少信息损失。 3.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 将所述第一 提取特征输入速度关系编码器进行编码处 理, 包括: 基于所述第一 提取特征获取第一 查询矩阵、 第一键矩阵以及第一 值矩阵; 将所述第一查询矩阵、 第一键矩阵以及第一值矩阵输入速度关系编码器, 任意所述子 速度关系编码器包括依次连接的Self ‑Attention模 块、 Add&Normaliz e模块、 Feed  Forward 模块以及Add&Normalize模块, 所述Self ‑Attention模块用于计算模态内信息的相关性, 所 述Add&Normalize模块用于对数据进行归一 化处理。 4.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 将所述第二 提取特征输入帧间关系编码器进行编码处 理, 包括: 基于所述第二 提取特征获取第二 查询矩阵、 第二键矩阵以及第二 值矩阵; 将所述第二查询矩阵、 第二键矩阵以及第二值矩阵输入子帧间关系编码器, 任意所述 子帧间关系编码器包括依次连接的Self ‑Attention模块、 Add&Normalize模块、 Feed   Forward模块以及Add&Normaliz e模块, 所述Self ‑Attention模块用于计算模态内信息的相 关性, 所述Ad d&Normalize模块用于对数据进行归一 化处理。 5.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 将所述第一引导特 征和第二引导特 征输入模态关系编码器进行编码处 理, 包括: 基于所述速度关系编码器的输出矩阵获取第三查询矩阵、 第三键矩阵以及第三值矩权 利 要 求 书 1/2 页 2 CN 115116124 A 2阵; 基于所述帧间关系编码器的输出矩阵获取第四查询矩阵、 第四键矩阵以及第四值矩阵; 任意所述子模态关系编码器包括两条结构相同的编码链路, 分别为视觉链路和雷达链 路, 任意编码链路包括依次连接的Cross ‑Attention模块、 Add&Normalize模块、 Self ‑ Attention模 块、 Feed Forward模块以及Add&Normaliz e模块, 所述Cro ss‑Attention模块用 于计算模态间信息的相关性; 将第三查询矩阵、 第四键矩阵以及第四值矩阵输入视 觉链路; 将第四查询矩阵、 第三键矩阵以及第三 值矩阵输入雷达链路; 根据cros s‑attention计算相关性, 然后引导模态内值矩阵。 6.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 所述第一特征提取网络为三层2D卷积神经网络, 其中前两层卷积核大小为3, 使用 BatchNorm2d函数以及Relu激活函数, 通道数由3、 16、 32, 依次变化; 第三层卷积核大小为3, 使用Batc hNorm2d函数以及Relu激活函数, 通道数由32变为64。 7.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法, 其特 征在于, 所述第二特征提取网络为2层3D卷积神经网络, 第一层卷积核大小为3, 使用 BatchNorm3d函数以及 Relu激活函数, 通道数由3变为8; 第二层卷积核大小为3, 通道数由8 变为16。 8.一种基于 视觉和无线双模态联合感知的动作识别方法, 其特 征在于, 包括以下步骤: 基于权利要求1 ‑7中任意一项方法获取动作表示数据; 基于所述动作表示数据进行动作识别。权 利 要 求 书 2/2 页 3 CN 115116124 A 3

.PDF文档 专利 基于视觉和无线双模态联合感知的动作表示及识别方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于视觉和无线双模态联合感知的动作表示及识别方法 第 1 页 专利 基于视觉和无线双模态联合感知的动作表示及识别方法 第 2 页 专利 基于视觉和无线双模态联合感知的动作表示及识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。