说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210580255.4 (22)申请日 2022.05.26 (71)申请人 北京交通大 学 地址 100044 北京市海淀区上园村 3号 (72)发明人 丛润民 刘鸿羽 张晨 林秦伟  赵耀  (74)专利代理 机构 北京卫平智业专利代理事务 所(普通合伙) 11392 专利代理师 闫萍 (51)Int.Cl. G06V 10/46(2022.01) G06V 10/56(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于跨模态交互和修正的RGB-D图像显著性 目标检测方法 (57)摘要 本发明涉及一种基于跨模态交互和修正的 RGB‑D图像显著性目标检测方法, 包括: 1、 在编码 阶段, 彩色图编码器和深度图编码器 分别提取彩 色图模态和深度图模态的特征, 彩色图模态和深 度图模态的高层特征经渐进式注意力引导整合 单元进行跨模态交互得到RGB ‑D特征; 2、 特征修 正中间件结构 对编码阶段得到的彩色图模态、 深 度图模态和RGB ‑D模态的特征进行自模态和跨模 态的修正; 3、 在解码阶段, 彩色图模态和深度图 模态分别解码, 并将各层级解码特征送入重要性 门控融合单元进行融合解码, 从而完成RGB ‑D模 态的解码, 得到最终的显著图。 本发明分别在不 同阶段对特征进行交互和修正, 实现两种模态更 加全面的融合以及对互补信息的提取。 权利要求书3页 说明书8页 附图1页 CN 115170830 A 2022.10.11 CN 115170830 A 1.一种跨模态交互修正网络, 其特征在于, 包括: 渐进式注意力引导整合单元、 重要性 门控融合单元、 特征修正中间件结构、 彩色图编码器、 深度图编码器、 彩色图解码器和深度 图解码器; 特 征修正中间件结构包括自模态 注意力修 正单元和跨模态加权修 正单元; 彩色图编码器和深度图编码器分别用于提取彩色图模态和深度图模态的特征; 渐进式 注意力引导整合单元用于将彩色图模态和深度图模态的高层特征进行跨模态交互得到 RGB‑D特征; 特征修正中间件结构用于对编码阶段得到的彩色图模态、 深度图模态和RGB ‑D 模态的特征进 行自模态和跨模态的修正; 彩色图解码 器和深度图解码器分别用于对彩色图 模态和深度图模态进行解码, 并将各层级解码特征送入重要性门控融合单元进行融合解 码, 从而完成RGB ‑D模态的解码, 得到最终的显著图。 2.一种基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法, 其特征在于: 使用权 利要求1所述的跨模态交 互修正网络, 包括以下步骤: 步骤1、 在编码阶段, 彩色图编码器和 深度图编码器分别提取彩色图模态和深度图模态 的特征, 彩色图模态和深度图模态的高层特征经渐进式注意力引导整合单元进行跨模态交 互得到RGB ‑D特征; 步骤2、 特征修正中间件结构对编码阶段得到的彩色图模态、 深度图模态和RGB ‑D模态 的特征进行自模态和跨模态的修 正; 步骤3、 在解码阶段, 彩色图模态和深度图模态分别解码, 并将各层级解码特征送入重 要性门控融合单 元进行融合 解码, 从而完成RGB ‑D模态的解码, 得到最终的显著图。 3.如权利要求2所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法, 其特 征在于: 步骤1中, 从第三层开始特 征组合和前向传播: 其中, 代表第i个编码级融合后得到 的RGB‑D特征, 和 分别表示第i个编码层 级的彩色图特征和深度图特征, 表示将 和 进行通道级联操作, 而conv表示卷积 层; 然后, 为了突出 互补信息, 抑制跨层次和跨通道融合中的无关冗余, 利用上一级RGB ‑D特 征生成的空间注 意力图来渐进地指导当前级的特征融合; 因此, 第4级和第5级的最 终RGB‑D 特征更新为: 其中, 为更新后的RGB ‑D特征,⊙是逐元素乘法, Ai‑1表示第i‑1级的注意力图, SA 是空间注意力操作, ↓表示下采样 操作。 4.如权利要求2所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法, 其特 征在于: 步骤2中, 自模态注意力修正单元来抑制背景噪声, 并以一种新的空间通道3D注意力方 式从模态自身的角度突出重要 线索;权 利 要 求 书 1/3 页 2 CN 115170830 A 2三个编码器分支 和 的输出特征被嵌入到自模态注意力修正单元中; 首先 计算输入特征在并行结构中的通道注意力和空间注意力, 从而得到相应的空间注意力图和 通道注意力图, 然后, 通过矩阵乘法将它们直接融合到注意力空间上, 生成三维注意力张 量; 这一过程描述 为: 其中, A3D代表三维注意力张量, 表示顶层编码层的每个模态的特征, mod∈{r,d, rgbd}, r、 d、 rgbd分别表示彩色图模态、 深度图模态和RGB ‑D模态, SA和CA分别表示空间注意 力操作和通道注意力操作, 表示矩阵乘法; 使用3D注意力张量以及残差连接来提炼每个 模态的自身特 征: 其中,⊙是逐元素乘法。 5.如权利要求4所述的基于跨模态交互和修正的RGB ‑D图像显著性目标检测方法, 其特 征在于: 步骤2中, 跨模态加权修正单元进一步捕捉多模态之间的长程依赖关系; 将自模态 注意力修正单元的输出特征 作为输入, 其中C、 H和W分别表示特征图 的通道、 高度和宽度; 首先, 使用卷积层将通道数量减半, 并将不同的模态映射到一个统一 的特征空间, 特 征空间表示 为: 其中, Fθ、 Fξ、 Fψ代表映射后得到的特征, Wθ、 Wξ、 和Wψ表示卷积层的可学习嵌入权 重; 然后, 以像素级方式计算彩色图特征和深度图特征之间的相 关性以及RGB ‑D特征的自 相关性: 其中 是矩阵乘法, 上标T表示矩阵转置, softmax是Softmax激活函数; 强调了彩色图模态和深度图模态之间的共 同响应, 而 对 RGB‑D模态本身的依赖性进行了建模; 最后, 映射到RGB ‑D模态的相关性信息共同生成跨模态全局依赖权重, 以提炼原始输入 特征: 其中mod∈{r,d,rgbd}, ⊙是逐元素乘法, 操作R将特 征维度 重塑为 权 利 要 求 书 2/3 页 3 CN 115170830 A 3

.PDF文档 专利 基于跨模态交互和修正的RGB-D图像显著性目标检测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态交互和修正的RGB-D图像显著性目标检测方法 第 1 页 专利 基于跨模态交互和修正的RGB-D图像显著性目标检测方法 第 2 页 专利 基于跨模态交互和修正的RGB-D图像显著性目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。