专利基于跨模态交互和修正的RGB-D图像显著性目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210580255.4 (22)申请日 2022.05.26 (71)申请人北京交通大学地址 100044 北京市海淀区上园村 3号 (72)发明人丛润民　刘鸿羽　张晨　林秦伟　赵耀　 (74)专利代理机构北京卫平智业专利代理事务所(普通合伙) 11392 专利代理师闫萍 (51)Int.Cl. G06V 10/46(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于跨模态交互和修正的RGB-D图像显著性目标检测方法 (57)摘要本发明涉及一种基于跨模态交互和修正的 RGB‑D图像显著性目标检测方法，包括： 1、在编码阶段，彩色图编码器和深度图编码器分别提取彩色图模态和深度图模态的特征，彩色图模态和深度图模态的高层特征经渐进式注意力引导整合单元进行跨模态交互得到RGB ‑D特征； 2、特征修正中间件结构对编码阶段得到的彩色图模态、深度图模态和RGB ‑D模态的特征进行自模态和跨模态的修正； 3、在解码阶段，彩色图模态和深度图模态分别解码，并将各层级解码特征送入重要性门控融合单元进行融合解码，从而完成RGB ‑D模态的解码，得到最终的显著图。本发明分别在不同阶段对特征进行交互和修正，实现两种模态更加全面的融合以及对互补信息的提取。权利要求书3页说明书8页附图1页 CN 115170830 A 2022.10.11 CN 115170830 A 1.一种跨模态交互修正网络，其特征在于，包括：渐进式注意力引导整合单元、重要性门控融合单元、特征修正中间件结构、彩色图编码器、深度图编码器、彩色图解码器和深度图解码器；特征修正中间件结构包括自模态注意力修正单元和跨模态加权修正单元；彩色图编码器和深度图编码器分别用于提取彩色图模态和深度图模态的特征；渐进式注意力引导整合单元用于将彩色图模态和深度图模态的高层特征进行跨模态交互得到 RGB‑D特征；特征修正中间件结构用于对编码阶段得到的彩色图模态、深度图模态和RGB ‑D 模态的特征进行自模态和跨模态的修正；彩色图解码器和深度图解码器分别用于对彩色图模态和深度图模态进行解码，并将各层级解码特征送入重要性门控融合单元进行融合解码，从而完成RGB ‑D模态的解码，得到最终的显著图。 2.一种基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法，其特征在于：使用权利要求1所述的跨模态交互修正网络，包括以下步骤：步骤1、在编码阶段，彩色图编码器和深度图编码器分别提取彩色图模态和深度图模态的特征，彩色图模态和深度图模态的高层特征经渐进式注意力引导整合单元进行跨模态交互得到RGB ‑D特征；步骤2、特征修正中间件结构对编码阶段得到的彩色图模态、深度图模态和RGB ‑D模态的特征进行自模态和跨模态的修正；步骤3、在解码阶段，彩色图模态和深度图模态分别解码，并将各层级解码特征送入重要性门控融合单元进行融合解码，从而完成RGB ‑D模态的解码，得到最终的显著图。 3.如权利要求2所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法，其特征在于：步骤1中，从第三层开始特征组合和前向传播：其中，代表第i个编码级融合后得到的RGB‑D特征，和分别表示第i个编码层级的彩色图特征和深度图特征，表示将和进行通道级联操作，而conv表示卷积层；然后，为了突出互补信息，抑制跨层次和跨通道融合中的无关冗余，利用上一级RGB ‑D特征生成的空间注意力图来渐进地指导当前级的特征融合；因此，第4级和第5级的最终RGB‑D 特征更新为：其中，为更新后的RGB ‑D特征，⊙是逐元素乘法， Ai‑1表示第i‑1级的注意力图， SA 是空间注意力操作， ↓表示下采样操作。 4.如权利要求2所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法，其特征在于：步骤2中，自模态注意力修正单元来抑制背景噪声，并以一种新的空间通道3D注意力方式从模态自身的角度突出重要线索；权　利　要　求　书 1/3 页 2 CN 115170830 A 2三个编码器分支和的输出特征被嵌入到自模态注意力修正单元中；首先计算输入特征在并行结构中的通道注意力和空间注意力，从而得到相应的空间注意力图和通道注意力图，然后，通过矩阵乘法将它们直接融合到注意力空间上，生成三维注意力张量；这一过程描述为：其中， A3D代表三维注意力张量，表示顶层编码层的每个模态的特征， mod∈{r,d, rgbd}， r、 d、 rgbd分别表示彩色图模态、深度图模态和RGB ‑D模态， SA和CA分别表示空间注意力操作和通道注意力操作，表示矩阵乘法；使用3D注意力张量以及残差连接来提炼每个模态的自身特征：其中，⊙是逐元素乘法。 5.如权利要求4所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法，其特征在于：步骤2中，跨模态加权修正单元进一步捕捉多模态之间的长程依赖关系；将自模态注意力修正单元的输出特征作为输入，其中C、 H和W分别表示特征图的通道、高度和宽度；首先，使用卷积层将通道数量减半，并将不同的模态映射到一个统一的特征空间，特征空间表示为：其中， Fθ、 Fξ、 Fψ代表映射后得到的特征， Wθ、 Wξ、和Wψ表示卷积层的可学习嵌入权重；然后，以像素级方式计算彩色图特征和深度图特征之间的相关性以及RGB ‑D特征的自相关性：其中是矩阵乘法，上标T表示矩阵转置， softmax是Softmax激活函数；强调了彩色图模态和深度图模态之间的共同响应，而对 RGB‑D模态本身的依赖性进行了建模；最后，映射到RGB ‑D模态的相关性信息共同生成跨模态全局依赖权重，以提炼原始输入特征：其中mod∈{r,d,rgbd}， ⊙是逐元素乘法，操作R将特征维度重塑为权　利　要　求　书 2/3 页 3 CN 115170830 A 3

专利 基于跨模态交互和修正的RGB-D图像显著性目标检测方法

专利基于跨模态交互和修正的RGB-D图像显著性目标检测方法