专利基于分层图增强堆叠自编码器的多视图图像分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210578371.2 (22)申请日 2022.05.25 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人苟建平　谢楠楠　刘金华　王智　欧卫华　陈雯柏　 (74)专利代理机构成都弘毅天承知识产权代理有限公司 5123 0 专利代理师谢建 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于分层图增强堆叠自编码器的多视图图像分类方法 (57)摘要本发明公开了一种基于分层图增强堆叠自编码器的多视图图像分类方法，涉及基于图增强的多视图图像分类方法及系统，其目的在于解决上述现有技术存在的无法提取多视图图像的各个视图的特征并将学习到的特征进行融合的技术问题。本发明提出一种基于分层图增强堆叠自编码器的多视图图像分类方法及系统，考虑到多视图数据的几何结构以及不同视图之间的互补性和一致性；一个分层的图结构被引入到自编码器中去学习特定视图的表示，保持了多视图数据的局部和非局部的几何结构；在学习到具有几何结构特性的各个视图的特征表示后，通过使用全连接神经网络重构出每个单一视图，公共表示能够被学习；还能自动平衡多个视图之间的互补性和一致性。权利要求书4页说明书13页附图1页 CN 114882288 A 2022.08.09 CN 114882288 A 1.一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，包括如下步骤：步骤S1，样本采集采集多视图样本 χ＝{X(1)， X(2)， ...， X(V)}，并进行归一化处理；其中 N为样本个数， dv为第v个视图的维度， V 表示视图个数；步骤S2，构建模型构建自编码器网络模型，自编码器网络模型包括自编码器和全连接神经网络；令第v个视图在自编码器的参数为在全连接神经网络中的参数为初始化所有视图在自编码器中的参数以及在全连接神经网络中的参数和公共表示H；其中l表示自编码器的第l层， L表示自编码器的总层数； m表示全连接神经网络的第m 层， M表示全连接神经网络的总层数； v表示第v个视图， V表示视图个数；表示第v 个视图在自编码器的第l层编码部分的权重和偏置，表示第v个视图在自编码器的第l层解码部分的权重和偏置；表示第v个视图在全连接神经网络第m层中的权重和偏置；步骤S3，模型训练将步骤S1归一化处理后的样本数据输入到自编码器网络模型中，样本数据输入自编码器并获取到每个视图的表示Z，全连接神经网络从初始化的公共表示H中重构出每个视图的表示C，全连接神经网络计算表示Z和表示C之间的损失，并优化、更新全连接神经网络的参数以及公共表示H，直至自编码器网络模型收敛；步骤S4，实时分类将实时多视图数据输入经步骤S3训练后的自编码器网络模型中，得到实时的公共表示 H，将公共表示H 输入到分类器中，对实时多视图数据进行分类，得到分类结果。 2.如权利要求1所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3包括：步骤S3.1，自编码器网络模型中的编码器为图增强堆叠自编码器，图增强堆叠自编码器包括多个图增强编码 ‑解码结构并以分层的方式堆叠而成，将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器中进行训练，获取到每个视图的表示Z(L,v)；步骤S3.2，随机初始化公共表示H，令全连接神经网络的输入为C(0,v)＝H，从公共表示H 中重构出每个单一视图的表示C(M,v)，再根据图增强堆叠自编码器网络中学习到的表示Z(L ,v)、和表示C(M,v)，通过最小化目标函数Jc，分别对全连接神经网络的参数公共表示H进行更新；其中最小化目标函数Jc为：权　利　要　求　书 1/4 页 2 CN 114882288 A 2步骤S3.3，重复步骤S3.1 ‑S3.2,直至图增强堆叠自编码器网络收敛。 3.如权利要求2所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3.1中，具体步骤为：步骤S3.1.1，将步骤S1归一化处理后的样本数据输入到图增强堆叠自编码器进行分层预训练，直到最后一层预训练完成；步骤S3.1.2，基于步骤S3.1.1预训练获得的参数，通过最小化微调目标函数，微调图增强堆叠自编码器的参数。 4.如权利要求3所述的一种基于分层图增强堆叠自编码器的多视图图像分类方法，其特征在于，步骤S3.1.1中，对于第v个视图来说，第l ‑1层学习到的表示Z(l‑1， v)作为第l层的输入；第一层的输入为原始数据，即Z(0， v)＝X(v)；记第v个视图的第l层参数为Θae(l,v)＝ {W*(l,v),b*(l,v)}， *∈{e,d}，其中表示第v个视图在自编码器的第l层编码部分的权重和偏置，表示第v个视图在自编码器的第l层解码部分的权重和偏置；；通过最小化目标函数，每个视图的第l层被预训练，直到最后一层预训练完成；最小化目标函数为：其中，第一项为重构损失，第二项为局部图正则化项，第三步为非局部图正则化项； Θae(l,v)为第v个视图在自编码器第l层的参数， λL和 λN分别是局部和非局部正则化项的调节参数； tr()为矩阵的迹； Z(l‑1,v)、 Z(l,v)分别为第l ‑1、 l层学习到的表示， Z(l‑1,v)作为第l层的输入，为第l层输入Z(l‑1,v)的重构， L+(l,v)＝D+(l,v)‑W+(l,v)是第v个视图第l层的局部结构拉普拉斯矩阵， D+(l,v)是第v个视图第l层的局部结构对角矩阵，该对角矩阵中的每个元素可表示为 W+(l,v)是第v个视图第l层的局部结构权重矩阵，该权重矩阵中的每个元素可以表示为 L‑(l,v)＝D‑(l,v)‑W‑(l,v)是第v个视图第l层的非局部结构拉普拉斯矩阵， D ‑(l,v)是第v个视图第l 层的非局部结构对角矩阵，该对角矩阵中的每个元素可以表示为 W‑(l,v)是第v个视图第l层的非局部结构权重矩阵，该权重矩阵中的每个元素可以表示为给定第v个视图的第l层的输入Z(l‑1,v)，对于每个视图来说，我们使用K近邻方法构造样本表示点的局部邻接图；也就是说，对于每个表示点，通过计算欧氏距离来选择最近的K个表示点作为它的邻居点去构造邻接图。权　利　要　求　书 2/4 页 3 CN 114882288 A 3

专利 基于分层图增强堆叠自编码器的多视图图像分类方法

专利基于分层图增强堆叠自编码器的多视图图像分类方法