说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210558899.3 (22)申请日 2022.05.21 (71)申请人 山东大学 地址 250000 山东省济南市高新区舜华路 1500号 (72)发明人 孟雷 李象贤 郑裕泽 马浩凯  齐壮 孟祥旭  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 王雪 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/77(2022.01) G06V 10/82(2022.01)G06V 10/774(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于跨模态语义表征学习和融合的图像分 类方法及系统 (57)摘要 本发明属于图像 分类领域, 提供了一种基于 跨模态语义表征学习和 融合的图像分类方法及 系统, 包括将获取的图像编码为视觉表征; 将获 取的图像编码为视觉表征; 采用部分异构迁移算 法从视觉表征学习与分类紧密相关的视觉分类 表征; 基于视觉表征, 通过跨模态语义信息推理 得到跨模态的语义信息推理结果, 采用类感知信 息选择算法对跨模态的语义信息推理结果计算 高阶语义表征; 融合视觉分类表征和高阶语义表 征生成融合表征, 基于融合表征进行图像识别分 类; 本发明通过表征对齐和跨模态推理提升模型 表征学习, 能够与常用的视觉识别方法ResNet、 ATNet等相结合, 在多模态数据有限的条件下有 效提升模型的识别准确率。 权利要求书2页 说明书11页 附图2页 CN 114898156 A 2022.08.12 CN 114898156 A 1.基于跨模态语义表征 学习和融合的图像分类方法, 其特 征在于, 包括: 将获取的图像编码为视 觉表征; 采用部分异构迁移算法从视 觉表征学习与分类紧密相关的视 觉分类表征; 基于视觉表征, 通过跨模态语义信息推理得到跨模态的语义信息推理结果, 采用类感 知信息选择算法对跨模态的语义信息推理结果计算高阶语义表征; 融合视觉分类表征和高阶语义表征生成融合表征, 基于融合表征进行图像识别分类。 2.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 所述采用部分异构迁移算法从视 觉表征学习与分类紧密相关的视 觉分类表征, 包括: 利用单标签分类和多标签分类任务中的分类损失, 筛选出由关键分类信 息构成的视觉 分类表征; 将部分异构迁移后文本模态的语义分类表征作为先验知识, 将视觉分类表征和语义分 类表征进行对齐, 得到最终的视 觉分类表征。 3.如权利要求2所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 通过交叉CE熵和二元交叉熵BCE损失分别计算单标签分类和多标签分类任务中的分类损 失: 其中, F为样本在视觉或文本模态中对应的分类表征, y为样本对应的标签, SL表示单标 签, ML表示多标签, 视 觉分类表征或语义分类表征通过映射c(.)输出类别预测信息 。 4.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 基于视觉表征, 通过跨模态语义信息推理得到跨模态的语义信息推理结果, 包括: 将视觉表征经过跨模态迁移转换为语义表征; 语义表征通过语义 解码器转 生成跨模态的语义信息推理结果。 5.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 所述采用类感知信息 选择算法对跨模态的语义信息推理结果计算高阶语义表征, 包括: 将跨模态的语义信息推理结果 通过嵌入映射 生成语义嵌入; 将类别相关的文本分布知识作为先验知识, 根据 各分类中出现各类文本的分布情况频 次映射到不同权 重比值; 利用重构语义关系矩阵融合各类文本的分布情况频次映射到不同权重比值, 得到语义 权重向量; 通过类别 选择信息为重构语义嵌入提供文本间的语义权重向量, 利用图卷积计算文本 嵌入经过类别选择信息 选择后的表征, 得到高阶语义表征。 6.如权利要求5所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 重构语义关系矩阵的构成, 具体为: 跨模态的语义信息推理结果根据模型的预测输出由大到小排列, 得到文本预测集合 text={t1,t2,…,tn}, 其中, n表示文本的总数, t 表示对文本的预测值; 选取前k个文本形成文本预测子集texttopk={t1,t2,…,tk}, 表示为模型预测最有可能 出现前k个文本;权 利 要 求 书 1/2 页 2 CN 114898156 A 2由texttopk构建重构语义关系矩阵R, 为主对角线为1 的对角矩阵, 除主对角线之外的其 它位置: 其中i, j分别表示矩阵中的行坐标和列坐标。 7.如权利要求1所述的基于跨模态语义表征学习和融合的图像分类方法, 其特征在于, 所述融合视 觉分类表征和高阶语义表征生成融合表征, 具体为: Ff= τ(fusi on( τ(Fvc), τ(Fh))) 其中, 视觉分类表征Fvc和高阶语义表征Fh; fusion(.)是指表征的融合操作, 如表征拼 接、 求和、 取最大值和取最小值操作, τ(.)是指一层全连接层后接ReLU(.)激活函数; Ff表示 融合表征。 8.基于跨模态语义表征 学习和融合的图像分类系统, 其特 征在于, 包括: 图像处理模块, 被 配置为将获取的图像编码为视 觉表征; 视觉表征学习 模块, 被配置为采用部分异构迁移算法从视觉表征学习与分类 紧密相关 的视觉分类表征; 跨模态语义信息推理模块, 被配置为基于视觉表征, 通过跨模态语义信息推理得到跨 模态的语义信息推理结果, 采用类感知信息选择算法对跨模态的语义信息推理结果计算高 阶语义表征; 异构模态表征模块, 被配置为融合视觉分类表征和高阶语义表征生成融合表征, 基于 融合表征进行图像识别分类。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器执 行时实现如权利要求1 ‑7中任一项 所述的基于跨模态语义表征学习和融合的图像 分类方法 中的步骤。 10.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一项 所述的基 于跨模态语义表征 学习和融合的图像分类方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114898156 A 3

.PDF文档 专利 基于跨模态语义表征学习和融合的图像分类方法及系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于跨模态语义表征学习和融合的图像分类方法及系统 第 1 页 专利 基于跨模态语义表征学习和融合的图像分类方法及系统 第 2 页 专利 基于跨模态语义表征学习和融合的图像分类方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。