专利基于视觉和无线双模态联合感知的动作表示及识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210524800.8 (22)申请日 2022.05.13 (71)申请人大连海事大学地址 116026 辽宁省大连市高新园区凌海路1号 (72)发明人刘晓凯　李明月　 (74)专利代理机构大连东方专利代理有限责任公司 21212 专利代理师吴婷婷　李洪福 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/40(2022.01) G06V 10/80(2022.01) (54)发明名称基于视觉和无线双模态联合感知的动作表示及识别方法 (57)摘要本发明提供一种基于视觉和无线双模态联合感知的动作表示及识别方法。表示方法包括：分别获取针对人体动作的雷达图像数据和视频图像数据；通过第一特征提取网络对所述雷达图像数据进行特征提取；通过第二特征提取网络对所述视频图像数据进行特征提取；将第一提取特征输入速度关系编码器进行编码处理，将第二提取特征输入帧间关系编码器进行编码处理；将第一引导特征和第二引导特征输入模态关系编码器进行编码处理，从而生成联合表征。本发明通过挖掘两个模态间的关系，从而提升模态融合的有效性，进一步提高识别的可靠性。权利要求书2页说明书7页附图1页 CN 115116124 A 2022.09.27 CN 115116124 A 1.一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，包括以下步骤：分别获取针对人体动作的雷达图像数据和视频图像数据；通过第一特征提取网络对所述雷达图像数据进行特征提取，从而获得第一提取特征；通过第二特征提取网络对所述视频图像数据进行特征提取，从而获得第二提取特征；将所述第一提取特征输入速度关系编码器进行编码处理，所述速度关系编码器用于挖掘第一提取特征中的速度相关性信息，并基于所述速度相关性信息对第一提取特征进行引导从而输出第一引导特征，所述速度关系编码器包括依次连接的若干结构相同的子速度关系编码器；同时将所述第二提取特征输入帧间关系编码器进行编码处理，所述帧间关系编码器用于挖掘第二提取特征中的帧间相关性信息，并基于所述帧间相关性信息对第二提取特征进行引导从而输出第二引导特征，所述帧间关系编码器包括依次连接的若干结构相同的子帧间关系编码器；将所述第一引导特征和第二引导特征输入模态关系编码器进行编码处理，所述模态关系编码器用于挖掘第一引导特征和第二引导特征的模态间特征相关性信息，并基于所述模态间特征相关性信息对第一引导特征和第二引导特征进行二次引导，从而生成联合表征，所述模态关系编码器包括依次连接的若干相同的子模态关系编码器。 2.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，方法还包括：将获取的联合表征输入与所述第一特征提取网络相反的网络结构进行特征重构，从而获取第一重构特征；同时将获取的联合表征输入与所述第二特征提取网络相反的网络结构进行特征重构，从而获取第二重构特征；通过一致性损失在第一提取特征与第一重构特征间形成约束以减少信息损失；同时通过一致性损失在第二提取特征与第二重构特征间形成约束以减少信息损失。 3.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第一提取特征输入速度关系编码器进行编码处理，包括：基于所述第一提取特征获取第一查询矩阵、第一键矩阵以及第一值矩阵；将所述第一查询矩阵、第一键矩阵以及第一值矩阵输入速度关系编码器，任意所述子速度关系编码器包括依次连接的Self ‑Attention模块、 Add&Normaliz e模块、 Feed Forward 模块以及Add&Normalize模块，所述Self ‑Attention模块用于计算模态内信息的相关性，所述Add&Normalize模块用于对数据进行归一化处理。 4.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第二提取特征输入帧间关系编码器进行编码处理，包括：基于所述第二提取特征获取第二查询矩阵、第二键矩阵以及第二值矩阵；将所述第二查询矩阵、第二键矩阵以及第二值矩阵输入子帧间关系编码器，任意所述子帧间关系编码器包括依次连接的Self ‑Attention模块、 Add&Normalize模块、 Feed Forward模块以及Add&Normaliz e模块，所述Self ‑Attention模块用于计算模态内信息的相关性，所述Ad d&Normalize模块用于对数据进行归一化处理。 5.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，将所述第一引导特征和第二引导特征输入模态关系编码器进行编码处理，包括：基于所述速度关系编码器的输出矩阵获取第三查询矩阵、第三键矩阵以及第三值矩权　利　要　求　书 1/2 页 2 CN 115116124 A 2阵；基于所述帧间关系编码器的输出矩阵获取第四查询矩阵、第四键矩阵以及第四值矩阵；任意所述子模态关系编码器包括两条结构相同的编码链路，分别为视觉链路和雷达链路，任意编码链路包括依次连接的Cross ‑Attention模块、 Add&Normalize模块、 Self ‑ Attention模块、 Feed Forward模块以及Add&Normaliz e模块，所述Cro ss‑Attention模块用于计算模态间信息的相关性；将第三查询矩阵、第四键矩阵以及第四值矩阵输入视觉链路；将第四查询矩阵、第三键矩阵以及第三值矩阵输入雷达链路；根据cros s‑attention计算相关性，然后引导模态内值矩阵。 6.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，所述第一特征提取网络为三层2D卷积神经网络，其中前两层卷积核大小为3，使用 BatchNorm2d函数以及Relu激活函数，通道数由3、 16、 32，依次变化；第三层卷积核大小为3，使用Batc hNorm2d函数以及Relu激活函数，通道数由32变为64。 7.根据权利要求1所述的一种基于视觉和无线双模态联合感知的动作表示方法，其特征在于，所述第二特征提取网络为2层3D卷积神经网络，第一层卷积核大小为3，使用 BatchNorm3d函数以及 Relu激活函数，通道数由3变为8；第二层卷积核大小为3，通道数由8 变为16。 8.一种基于视觉和无线双模态联合感知的动作识别方法，其特征在于，包括以下步骤：基于权利要求1 ‑7中任意一项方法获取动作表示数据；基于所述动作表示数据进行动作识别。权　利　要　求　书 2/2 页 3 CN 115116124 A 3

专利 基于视觉和无线双模态联合感知的动作表示及识别方法

专利基于视觉和无线双模态联合感知的动作表示及识别方法