专利一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210858918.4 (22)申请日 2022.07.21 (71)申请人湘潭大学地址 411105 湖南省湘潭市雨湖区羊牯塘 (72)发明人胡凯　黄扬林　张园　高协平　 (74)专利代理机构湘潭市汇智专利事务所(普通合伙) 43108 专利代理师颜昌伟 (51)Int.Cl. G06T 7/00(2017.01) G06T 7/11(2017.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于CNN和Transformer融合的结肠镜息肉图像分割方法 (57)摘要本发明提供了一种基于CNN和Transformer 融合的结肠镜息肉图像分割方法，其步骤为： S1，将结肠镜息肉图像数据集划分为训练、验证和测试样本集； S2，对样本集进行数据预处理操作； S3，使用预处理后训练和验证样本集对神经网络模型进行训练、验证，并保存训练好的神经网络模型； S4，将预处理后测试样本集输入训练好的神经网络模型中，得到结肠镜息肉图像粗分割结果； S5，对结肠镜息肉图像粗分割结果进行图像后处理操作，得到最终分割结果。本发明创新性设计了一种CNN和Transformer神经网络融合模型，其弥补了CNN和Tran sformer分支特征融合过程中因学习范式差异而产生的潜在问题，进而充分利用两者特征互补性，有效地解决了息肉难以定位、细节难以捕获以及伪装性区域难以辨别问题。权利要求书3页说明书7页附图2页 CN 115018824 A 2022.09.06 CN 115018824 A 1.一种基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，包括以下步骤： S1：将获取到的结肠镜息肉图像数据集划分为训练样本集、验证样本集和测试样本集； S2：对步骤S1划分好的样本集，采用包括多尺度训练策略调整尺寸大小、标准化在内的数据预处理操作； S3：使用步骤S2获取到的预处理后训练样本集和验证样本集对神经网络模型进行训练、验证，并保存训练完成后的神经网络模型； S4：将步骤S2获取到的预处理后测试样本集输入到步骤S3已训练完成的神经网络模型中，得到结肠镜息肉图像粗分割结果； S5：对步骤S4获取到的结肠镜息肉图像粗分割结果，采用包括全连接条件随机场、孔洞填充算法在内的图像后处理操作，进一步细化并得到结肠镜息肉图像分割最终结果。 2.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述步骤S2 中对步骤S1划分好的样本集调整为352 ×352，进一步采用多尺度训练策略按{0.75， 1， 1.25}缩放系数将样本集图像随机调整为264 ×264、 352×352和440 × 440大小；对调整后的每个样本进行均值方差标准化操作。 3.根据权利要求1所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述步骤S3中的神经网络模型为CN N和Transformer神经网络融合模型，具体为：在CNN和Transformer神经网络融合模型编码部分，将获取到的预处理后样本集分别输入到预先训练好的CNN模型和Transformer模型中，以从局部和全局两个视角对结肠镜下息肉图像进行特征提取，并将同一层次的CNN和Transformer分支编码特征均输入到双分支融合模块，利用多尺度策略和注意力机制来弥补两分支间的语义鸿沟问题，生成兼具CNN和 Transformer双分支各自优势的融合编码特征；在CNN和Transformer神经网络融合模型解码部分，将编码部分中获取到的不同层次双分支融合特征输入到渐进式注意力解码模块，获得逐层高级语义信息指导后的解码特征，并对解码特征使用1 ×1卷积和Sigmoid激活层，计算得到结肠镜图像中每个像素属于息肉区域的分类概率。 4.根据权利要求3所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述CN N和Transformer神经网络融合模型编码部分中双分支融合模块，具体为：利用公式捕获来自不同尺度的信息，并将不同尺度分支流的信息进行整合以形成多尺度特征信息描述符；其中， ci表示CNN分支编码的特征； ti表示 Transformer分支编码的特征； frfb(·)表示RFB策略，用于进行多尺度特征学习；表示矩阵乘法； Co ncat(·)表示特征拼接；利用公式和将获取到的多尺度特征信息描述符加权于CNN和Transformer分支编码特征，此时CNN和Transformer分支编码特征通过多尺度上下文信息加权，缓解了因两者学习范式差异而产生的巨大语义鸿沟，生成了兼具两者特性加权下的融合特征；其中， fi表示多尺度特征信息描述符； ci表示CNN分支编码的特征； ti表示Transformer分支编码的特征；表示矩阵乘法； f1×1(·)表示1×1卷积操作；权　利　要　求　书 1/3 页 2 CN 115018824 A 2利用公式将特征引导后的CNN和Transformer分支编码特征重新融合，表示对应位置元素相加。 5.根据权利要求3所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述CNN和 Transformer神经网络模型解码部分中渐进式注意力解码模块，具体为：利用公式将高层语义信息逐层加权于低层特征信息中，生成全局引导和细节优化后的解码特征；其中，表示第i层双分支融合特征，为低层特征；表示第j层双分支融合特征，为高层特征； DA(·)表示双重注意力机制。 6.根据权利要求5所述的基于CNN和Transformer融合的结肠镜息肉图像分割方法，其特征在于，所述CNN和Transformer神经网络模型解码部分的渐进式注意力解码模块中双重注意力机制具体为：在空间注意力机制上：利用公式和对第i层双分支融合特征图和第j层双分支融合特征图做卷积操作，以获得相同的通道数和尺寸大小；其中， f1×1(·)表示1×1卷积操作； GN(·)表示组标准化操作；利用公式将低层特征和高层特征融合得到新融合特征并对其进行ReLU激活操作；其中， ReLU( ·)为线性整流激活函数；表示对应位置元素相加；利用公式对新融合进行卷积操作，用于整合信息，提高特征的抽象能力，并进一步对卷积后特征使用Sigmoid函数激活，将特征值归一化到[0, 1]之间，得到注意力掩膜其中， f1×1(·)表示1×1卷积操作；利用公式将注意力掩膜重采样后得到的权重图与第i 层双分支融合特征相乘，使目标区域获得更多的关注，进而得到空间引导后的特征其中， Resample( ·)表示重采样操作；表示对应位置元素相乘；在通道注意力机制上：采用全局池化操作对第i层双分支融合特征进行压缩操作，使二维的特征通道变成一个实数，该实数具有全局感受野；引入两个全连接层来建模通道间的相关性，并输出一个与输入特征相同数目的权重；在两个全连接层中间引入ReLU函数进行激活，这样学习到的特征具有更多的非线性，从而更好地拟合通道间的复杂相关性；通过Sigmoid激活函数获得[0,1]之间的权重利用公式将学习到的通道注意力权重加权到经空间引导后的低层特征上；其中，表示对应位置元素相乘；权　利　要　求　书 2/3 页 3 CN 115018824 A 3

专利 一种基于CNN和Transformer融合的结肠镜息肉图像分割方法

专利一种基于CNN和Transformer融合的结肠镜息肉图像分割方法