说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210536123.1 (22)申请日 2022.05.18 (65)同一申请的已公布的文献号 申请公布号 CN 114638994 A (43)申请公布日 2022.06.17 (73)专利权人 山东建筑大学 地址 250101 山东省济南市历城区临港开 发区凤鸣路10 00号 (72)发明人 袭肖明 杨霄 刘新锋 聂秀山  张光 尹义龙  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳 (51)Int.Cl. G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/40(2022.01) (56)对比文件 CN 113420807 A,2021.09.21 CN 113158875 A,2021.07.23 CN 112101410 A,2020.12.18 审查员 徐雯晖 (54)发明名称 基于注意力的多交互网络的多模态图像分 类系统及方法 (57)摘要 本发明属于图像处理技术领域, 提供了基于 注意力的多交互网络的多模态 图像分类系统及 方法, 本发明利用U ‑net网络结构, 将低级视觉 特 征与高级语义特征进行融合。 引入注 意力网络来 解决特征区分性弱的问题, 并对区分性特征赋予 较高的注 意力, 使得起其在最后分类过程中起重 要的作用。 引入充分的多模态交互机制, 使多个 模态之间获得更有效的相关性信息以及判别性 信息, 完成多个模态之间的充分交互, 解决了多 模态图像分类任务中特征区分性弱以及模态间 交互不充分的问题。 权利要求书2页 说明书7页 附图1页 CN 114638994 B 2022.08.19 CN 114638994 B 1.基于注意力的多交 互网络的多模态图像分类系统, 其特 征在于, 包括: 特征向量提取模块用于从多模态图像提取关键特 征信息; U‑net特征提取模块, 用于接收关键特征信息, 采用U ‑net多分辨率特征融合的思想, 将 关键信息特 征中的低级视 觉特征与高级语义特 征进行融合得到第一特 征图集合; 先验模块用于接收第 一特征图集合, 对第 一特征图集合采用修正余弦函数计算多模态 图像之间的相关性得分, 对相关性得分高的区域分配高的注意力, 得到第二特 征图集合; 通道交互模块用于接收第 二特征图集合, 将第 二特征图集合在信道维度 上对多个特征 进行模态融合, 得到第三特 征图集合; 模态融合模块用于接收第 三特征图集合, 对第 三特征图集合中的特征图进行卷积得到 多模态特征矩阵, 并将多模态特征矩阵相乘, 分别得到对应的特征, 计算特征之间的相似 度, 并对相似度区域特 征进行加权后添加至原 始特征中, 得到第四特 征图集合; 图像分类模块用于基于训练好的分类网络模型对第四特征图集合进行分类, 计算对应 的类别得分, 类别得分的最大值所对应的类别即为 最终的分类结果。 2.如权利要求1所述的基于注意力的多交互网络的多模态图像分类系统, 其特征在于, 所述系统还包括数据预处理模块, 所述数据预处理模块包括数据增强处理模块、 数据集划 分模块以及归一 化处理模块。 3.如权利要求1所述的基于注意力的多交互网络的多模态图像分类系统, 其特征在于, 所述先验 模块用于通过构建相关性学习模型来学习多个模态的相似性, 具体包括: 采用修正余弦函数计算多个模态之间的相关性得分; 根据相关性得分筛 选相关性高的区域分配更高的注意力。 4.基于注意力的多交 互网络的多模态图像分类方法, 其特 征在于, 包括如下步骤: 从多模态图像提取关键特 征信息; 接收关键特征信息, 采用U ‑net多分辨率特征融合的思想, 将关键信息特征中的低级视 觉特征与高级语义特征进行融合得到第一特征图集合; 基于第一特征图集合, 对第一特征 图集合采用修正余弦函数计算多模态图像之间的相关性得分, 对相关性得分高的区域分配 高的注意力, 得到第二特征图集合; 基于第二特征图集合, 将第二特征图集合在信道维度上 对多个特 征进行模态融合, 得到第三特 征图集合; 基于第三特征图集合, 对第三特征图集合中的特征图进行卷积得到多模态特征矩阵, 并将多模态特征矩阵相乘, 分别得到对应的特征, 计算特征之 间的相似度, 并对相似度区域 特征进行加权后添加至原 始特征中, 得到第四特 征图集合; 基于训练好的分类网络模型对第 四特征图集合进行分类, 计算对应的类别得分, 类别 得分的最大值所对应的类别即为 最终的分类结果。 5.如权利要求4所述的基于注意力的多交互网络的多模态图像分类方法, 其特征在于, 在进行提取关键特征信息前, 对多模态图像进行预 处理, 包括数据增强处理、 数据集划分以 及归一化处理。 6.如权利要求4所述的基于注意力的多交互网络的多模态图像分类方法, 其特征在于, 所述基于各自模态关注区域的特征进行相似度计算通过构建相关性学习模型来学习多个 模态的相似性, 具体包括: 采用修正余弦函数计算多个模态之间的相关性得分;权 利 要 求 书 1/2 页 2 CN 114638994 B 2根据相关性得分筛 选相关性高的区域分配更高的注意力。权 利 要 求 书 2/2 页 3 CN 114638994 B 3

.PDF文档 专利 基于注意力的多交互网络的多模态图像分类系统及方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于注意力的多交互网络的多模态图像分类系统及方法 第 1 页 专利 基于注意力的多交互网络的多模态图像分类系统及方法 第 2 页 专利 基于注意力的多交互网络的多模态图像分类系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。