(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210578371.2
(22)申请日 2022.05.25
(71)申请人 江苏大学
地址 212013 江苏省镇江市京口区学府路
301号
(72)发明人 苟建平 谢楠楠 刘金华 王智
欧卫华 陈雯柏
(74)专利代理 机构 成都弘毅天承知识产权代理
有限公司 5123 0
专利代理师 谢建
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于分层 图增强堆叠自编码器的多视图图
像分类方法
(57)摘要
本发明公开了一种基于分层 图增强堆叠自
编码器的多视图图像分类方法, 涉及基于图增强
的多视图图像 分类方法及系统, 其目的在于解决
上述现有技术存在的无法提取多视图图像的各
个视图的特征并将学习到的特征进行融合的技
术问题。 本发 明提出一种基于分层图增强堆叠自
编码器的多视图图像分类方法及系统, 考虑到多
视图数据的几何结构以及不同视图之间的互补
性和一致性; 一个 分层的图结构被引入到自编码
器中去学习特定视图的表示, 保持了多视图数据
的局部和非局部的几何结构; 在学习到具有几何
结构特性的各个视图的特征表 示后, 通过使用全
连接神经网络重构出每个单一视图, 公共表示能
够被学习; 还能自动平衡多个视图之间的互补性
和一致性。
权利要求书4页 说明书13页 附图1页
CN 114882288 A
2022.08.09
CN 114882288 A
1.一种基于分层图增强堆叠自编码器的多视图图像分类方法, 其特征在于, 包括如下
步骤:
步骤S1, 样本采集
采集多视图样本 χ={X(1), X(2), ..., X(V)}, 并进行归一 化处理;
其中
N为样本个数, dv为第v个视图的维度, V 表示视图个数;
步骤S2, 构建模型
构建自编码器网络模型, 自编码器网络模型包括自编码器和全连接神经网络; 令第v个
视图在自编码器的参数为
在全连接神经网络中的
参数为
初始化所有视图在自编码器中的参数
以及在全连接神经网络中的参数
和公共表示H;
其中l表示自编码器的第l层, L表示自编码器的总层数; m表示全连接神经网络的第m
层, M表示全连接神经 网络的总 层数; v表示第v个视图, V表示视图个数;
表示第v
个视图在自编码器的第l层编码部分的权重和偏置,
表示第v个视图在自编码器
的第l层解码部 分的权重和偏置;
表示第v个视图在全连接神经网络第m层中的
权重和偏置;
步骤S3, 模型训练
将步骤S1归一化处理后的样本数据输入到自编码器网络模型中, 样本数据输入自编码
器并获取到每个视图的表示Z, 全连接神经网络从初始化的公共表 示H中重构出每个视图的
表示C, 全连接神经网络计算表示Z和表示C之间的损失, 并优化、 更新全连接神经网络的参
数以及公共表示H, 直至自编码器网络模型收敛;
步骤S4, 实时分类
将实时多视图数据输入经步骤S3训练后的自编码器网络模型中, 得到实时的公共表示
H, 将公共表示H 输入到分类 器中, 对实时多视图数据进行分类, 得到分类结果。
2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法, 其
特征在于, 步骤S3包括:
步骤S3.1, 自编码器网络模型中的编码器为 图增强堆叠自编码器, 图增 强堆叠自编码
器包括多个图增强编码 ‑解码结构并以分层的方式堆叠而成, 将步骤S1归一化处理后的样
本数据输入到图增强堆叠自编码器中进行训练, 获取到每 个视图的表示Z(L,v);
步骤S3.2, 随机初始化公共表示H, 令全连接神经网络的输入为C(0,v)=H, 从公共表示H
中重构出每个单一视图的表示C(M,v), 再根据图增强堆叠自编码器网络中学习到的表示Z(L
,v)、 和表示C(M,v), 通过最小化目标函数Jc, 分别对全连接神经网络的参数
公共
表示H进行 更新;
其中最小化目标函数Jc为:权 利 要 求 书 1/4 页
2
CN 114882288 A
2步骤S3.3, 重复步骤S3.1 ‑S3.2,直至图增强堆叠自编码器网络收敛。
3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法, 其
特征在于, 步骤S3.1中, 具体步骤为:
步骤S3.1.1, 将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层
预训练, 直到最后一层预训练完成;
步骤S3.1.2, 基于步骤S3.1.1预训练获得的参数, 通过最小化微调目标函数, 微调图增
强堆叠自编码器的参数。
4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法, 其
特征在于, 步骤S3.1.1中, 对于第v个视图来说, 第l ‑1层学习到的表示Z(l‑1, v)作为第l层的
输入; 第一层的输入为原始数据, 即Z(0, v)=X(v); 记第v个视图的第l层参数为Θae(l,v)=
{W*(l,v),b*(l,v)}, *∈{e,d}, 其 中
表示第v个视图在自编码器的第l层编码部分
的权重和偏置,
表示第v个视图在自编码器的第l层解码部分的权重和偏置; ;
通过最小化目标函数, 每 个视图的第l层被预训练, 直到最后一层预训练完成;
最小化目标函数为:
其中, 第一项为重构损失, 第二项为局部图正则化项, 第三步为非局部图正则化项;
Θae(l,v)为第v个视图在自编码器第l层的参数, λL和 λN分别是局部和非局部正则化项的调节
参数; tr()为矩阵的迹; Z(l‑1,v)、 Z(l,v)分别为第l ‑1、 l层学习到的表示, Z(l‑1,v)作为第l层的
输入,
为第l层输入Z(l‑1,v)的重构, L+(l,v)=D+(l,v)‑W+(l,v)是第v个视图第l层的局部
结构拉普拉斯矩阵, D+(l,v)是第v个视图第l层的局部结构对角矩阵, 该对角矩阵中的每个元
素可表示为
W+(l,v)是第v个视图第l层的局部结构权重矩阵, 该权重矩
阵中的每 个元素可以表示 为
L‑(l,v)=D‑(l,v)‑W‑(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵, D ‑(l,v)是第v个
视图 第l 层的 非 局部结 构对 角矩阵 , 该 对 角矩阵 中的 每 个元 素 可以 表示为
W‑(l,v)是第v个视图第l层的非局部 结构权重矩阵, 该权重矩阵中的每
个元素可以表示为
给定第v个视图的第l层的输入Z(l‑1,v), 对于每个视图来
说, 我们使用K近邻方法构 造样本表示点的局部邻接图; 也就是说, 对于每个表 示点, 通过计
算欧氏距离来选择最近的K个表示 点作为它的邻居点去构造邻接图。权 利 要 求 书 2/4 页
3
CN 114882288 A
3
专利 基于分层图增强堆叠自编码器的多视图图像分类方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:48:29上传分享