专利基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210542820.8 (22)申请日 2022.05.18 (65)同一申请的已公布的文献号申请公布号 CN 114863179 A (43)申请公布日 2022.08.05 (73)专利权人合肥工业大学地址 230000 安徽省合肥市经济技术开发区翡翠路420号合肥工业大学翡翠湖校区科教楼 (72)发明人史骏　张元　汪逸飞　杨皓程　周泰然　李想　郑利平　 (74)专利代理机构合肥中谷知识产权代理事务所(普通合伙) 34146 专利代理师袁锦波 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/82(2022.01)G06V 10/77(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G16H 50/20(2018.01) (56)对比文件 CN 113378791 A,2021.09.10 WO 2022073452 A1,202 2.04.14 CN 109034253 A,2018.12.18 Peng Li et.al.Bi- Modal Learn ing With Channel-Wise Attention for Multi-Label Image Classificati on. 《IEEE Access》 .2020, 第2169-3536页. 韩旭等.基于注意力机制及多尺度特征融合的番茄叶片缺素图像分类方法. 《农业工程学报》 .2021,第37 卷(第17期),第17 7-188页. 审查员刘志军 (54)发明名称基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法 (57)摘要本发明提出了一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，包括：获取已标注好的N类内窥镜图像；建立基于多尺度特征嵌入和多头交叉注意力的深度学习网络；构建内窥镜图像分类器；利用建立好的分类器实现预测内窥镜图像类别。本发明通过多尺度特征嵌入将深层特征图中丰富的语义信息和浅层特征图中的几何细节信息进行融合，并结合交叉注意力机制消除不同尺度特征图之间的语义信息和几何信息歧义来挖掘出更有效的特征，完成对内窥镜图像的精准分类，从而辅助医生进行诊断阅片，提高阅片效率。权利要求书4页说明书9页附图2页 CN 114863179 B 2022.12.13 CN 114863179 B 1.一种基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法，其特征在于，所述方法包括：步骤1、获取N种类别C ×H×W的内窥镜图像样本，对所述样本进行预处理后得到训练集 E， E＝{E1， E2， ...， En， ...， EN}； En表示第n类内窥镜图像样本，第n类共有P个图像，表示第n类预处理后的内窥镜图像样本中的第p 个图像； C表示图像通道， H表示图像高度， W表示图像宽度， n ＝1， 2， ...， N；步骤2、建立深度学习网络，通过所述深度学习网络的卷积神经网络对所述内窥镜图像的样本数据集进行处理，以输出不同卷积阶段的特征图，将所述不同卷积阶段的特征图经过降维处理后形成降维输出特征图 i＝1， 2， 3， 4；具体为：步骤2.1、建立深度学习网络，所述深度学习网络包括：多尺度特征提取模块、多尺度特征嵌入模块和多头交叉注意力编码器模块；步骤2.2、构建多尺度特征提取模块：所述多尺度特征提取模块由四个卷积神经网络阶段构成，依次包括：第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段；将第p个图像输入所述多尺度特征提取模块中，并经过所述第一卷积阶段、第二卷积阶段、第三卷积阶段、第四卷积阶段分别得到第一卷积阶段输出的特征图第二卷积阶段输出的特征图第三卷积阶段输出的特征图第四卷积阶段输出的特征图步骤2.3、构建多尺度特征嵌入模块：所述多尺度特征嵌入模块由4个不同的嵌入层并联而成， 4个嵌入层对应4个 i＝1， 2， 3， 4，每个嵌入层包含一个卷积层和一个降维处理；将四个卷积阶段输出特征图输入到多尺度特征嵌入模块中， i ＝1， 2， 3， 4，分别经过卷积核为25‑i×25‑i的卷积层并经过降维处理后分别输出特征图 i＝1， 2， 3， 4；步骤3、将所述降维输出特征图输入至预先构建的多尺度特征嵌入的多头交叉注意力编码器中，进行归一化及上采样处理后输出特征图Un， p；具体为：步骤3.1、构建多尺度特征嵌入的多头交叉注意力编码器：所述多尺度特征嵌入的多头交叉注意力编码器模块由嵌入4个卷积阶段的特征和L个多头交叉注意力编码器串联而成；将4个特征图输入所述多尺度特征嵌入模块中，并分别经过一个LN层进行归一化处理，从通道交叉的角度对特征图进行转换，具体利用式(1)得到通道交叉特征图 i＝1， 2， 3， 4：式(1)中transpose( ·)代表特征图的转置处理，代表有Ci个大小为权　利　要　求　书 1/4 页 2 CN 114863179 B 2Hi·Wi的像素特征图，代表有Hi·Wi个大小为Ci个通道交叉的像素特征图；步骤3.2、将通道交叉特征图进行多尺度嵌入，具体利用式(2)得到多尺度特征嵌入特征图式(2)中concat( ·)代表特征向量拼接操作，表示经过多尺度特征嵌入和转置后的通道交叉特征图；步骤3.3、将特征图作为第1个多头交叉注意力编码器模块的输入，第c个多头交叉注意力编码器模块的输出作为第c+1个多头交叉注意力编码器模块的输入；任意第c个多头交叉注意力编码器模块包括： 2个线性变换层， M个并联的交叉注意力层； c＝1， 2， . ..， L；步骤3.4、将特征图 f＝1， 2， 3， 4输入到第c个多头交叉注意力编码器模块，将特征图分别与两个权重矩阵WmK， WmV相乘，将特征图 i＝1， 2， 3， 4，分别与四个权重矩阵相乘，输出特征图Kn， p、 Vn， p、 f＝1， 2， 3， 4，具体公式如式(3)所示：式(3)中， φ( ·)代表归一化函数；步骤3.5、将多尺度特征嵌入模块输出特征图输入第1个多头交叉注意力编码器中，分别经过线性变换处理输入至M 头交叉注意力层中，将分别与Kn， p相乘，最后通过Softmax函数激活后与Vn， p相乘得到输出，具体公式如式(4)所示：式(4)中， ψ( ·)是归一化函数， δ(·)是Softmax函数；步骤3.6、以注意力特征图为基础，动态地融合不同头部的沣意力特征图来形成新的注意力特征图，具体公式如式(5)所示：式(5)中，是一个可学习的变换矩阵，通过将多头注意力特征图融合并生成新的注意力特征图；将得到M个交叉注意力层输出 i＝1， 2， 3， 4， m＝1， 2， ...， M，再利用式(6)所示得到特征图 c＝1， 2， . ..， L， i＝1， 2， 3， 4：权　利　要　求　书 2/4 页 3 CN 114863179 B 3

专利 基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法

专利基于多尺度特征嵌入和交叉注意力的内窥镜图像分类方法