专利一种基于CNN和Transformer混合模型的文本检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210677277.2 (22)申请日 2022.06.16 (71)申请人湖南大学地址 410082 湖南省长沙市岳麓区麓山南路1号湖南大学 (72)发明人尤志强　杨静　钟志伟　 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 30/14(2022.01) G06V 30/148(2022.01) G06V 10/774(2022.01) G06V 10/30(2022.01) G06V 10/28(2022.01) (54)发明名称一种基于CNN和Transformer混合模型的文本检测方法 (57)摘要本发明公开了一种基于CNN和Transformer 混合模型的文本检测方法。该方法采用CNN提取出文本图像一系列不同尺度的基本特征，通过 Transformer生成权重嵌入和概率阈值嵌入。利用权重嵌入生成注意力权重，对不同尺度基本特征进行动态尺度融合，得到一个具有强大特征表示能力的融合特征图；对概率阈值嵌入和融合特征图进行标量积相乘得到一个结构轻便且同样具有强大表示能力的概率阈值预测；随后，对概率阈值预测进行反卷积得到概率图和阈值图；最后，通过一个近似二值化公式得到文本图像的二值图，在二值图上寻找联通区域即可得到文本的边界框。本发明能有效地提取图像的局部信息和全局信息，使得解码后的特征包含更多更精准的文本信息，显著提高了文本检测的精度。权利要求书3页说明书6页附图4页 CN 115019143 A 2022.09.06 CN 115019143 A 1.一种基于 CNN和Transformer混合模型的文本检测方法，其特征是，包括以下步骤： S1、获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒性；为了提高训练效率，将所有输入图片统一放缩到H ×W；其中H和W分别代表图像的长和宽；自然场景文本公共数据集包括多方向文本数据集ICDAR2015、弯曲文本数据集CTW ‑1500 和Total‑Text； S2、使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图： Pi， i∈{2,3,4,5}，其图像大小分别为输入图片大小的1/4、 1/8、 1/16、 1/32；随后对这些不同尺度特征图上采样至和P2同一尺度，得到通道数均为C的F2、 F3、 F4、 F5； S3、将低分辨率特征图P5和N个查询送入到Transformer模块里得到N个嵌入；随即通过一个三层的多层感知机对嵌入作进一步的信息解码，得到N个维度为Cε的功能嵌入，其中Cε 等于步骤S2所述拼接特征图Fconcat的通道数，即有Cε＝4C； N个功能嵌入包含了N1个权重嵌入 εw和N2个概率阈值嵌入εpt；其中N1等于步骤S2中需要融合的特征图数目，即为4； N值是通过自适应的方式获得的，它等于 N1和N2的相加；对于不同应用场景可以有不同的N值；本发明将 N设置为3 6； S4、对步骤S2所述的同一尺度特征图F2、 F3、 F4、 F5进行动态融合得到融合特征图Ffused，融合特征图为后续的解码提供了一个强大的特征表示； S5、通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值图，运用一个近似二值化公式对概率图和阈值图进行计算得到二值图；根据二值图预测得到最后的文本框。 2.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S2具体为，对低分辨率特征图Pi+1和高分辨率特征图Pi进行1×1的卷积，使得他们通道数均变为C；通道数C设置为64；然后对Pi+1卷积后的特征图进行2 倍的上采样和Pi卷积后的特征图进行相加；随后对相加得到的特征图进行最邻近上采样至和特征图 P2同一尺度，得到F2、 F3、 F4、 F5；下面的公式可以概括上述过程：其中表示进行2i‑2倍的上采样， Co nvk×k(:)表示k×k的卷积核。 3.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，步骤S3中，所述Transformer模块里不含编码器，仅由6个解码器组成；每个解码器中含有一个多头自注意力(MSA)单元、一个多头交叉注意力(MCA)单元和一个多层感知机单元(MLP)；记每个解码器的输入为zi‑1、输出为zi， LN表示层归一化，则解码器的计算公式如下：其中ai‑1和ci‑1仅表示中间变量， i∈{1,2,...,6}；自注意力机制由三个逐点线性层组成，将输入zi‑1映射到中间表示：查询Q、键K和值V；其中，逐点线性层由输入zi‑1和一个可学权　利　要　求　书 1/3 页 2 CN 115019143 A 2习的矩阵相乘得到；自注意力机制的计算公式如下：交叉注意力机制(MCA)也由三个逐点线性层组成，其中查询Q由ai‑1映射得到，键和值由权利要求1中步骤S2所述的低分辨率特征图P5映射得到；交叉注意力机制的计算公式如下：自注意力机制以及交叉注意力机制由于其本身特性，在计算过程中会对输入中的每个向量都进行信息的交互，因此能轻松建模远程语义依赖关系并较好地捕获全局范围特征。 4.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S4具体为，首先将权利要求1中的步骤S2所述F2、 F3、 F4、 F5沿通道方向进行拼接，得到通道数为4C的拼接特征图Fconcat；然后对权利要求1中的步骤S3所述转置后的权重嵌入和拼接特征图Fconcat∈R4C×H/4×W/4作标量积相乘，随后对相乘的结果进行 sigmoid函数激活得到注意力权重Fw∈R4×H/4×W/4，其值在0到1之间，可以达到强化有用图像信息和抑制无用信息的效果；该过程的计算公式如下：其中Reshape(4C,H/4 ·W/4)(Fconcat)表示将拼接特征图Fconcat的形状重新变换为4C × (H/4·W/4)， σ 表示sigmoid激活函数；最后，我们将注意力权重沿通道维度划分为4部分，并与权利要求1中步骤S2所述相应的缩放特征Fi进行加权乘法以获得融合特征图Ffused∈R4C ×H/4×W/4。 5.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法，其特征在于，所述步骤S5具体包括以下三个步骤： S51、对权利要求4中的步骤S4所述融合特征图Ffused∈R4C×H/4×W/4(4C＝Cε)和权利要求1 中的步骤S3 所述转置后的概率阈值嵌入进行标量积相乘得到概率阈值预测Fpt∈ R32×H/4×W/4，该过程的计算公式如下：其中Reshape(Cε,H/4·W/4)(Ffused)表示将拼接特征图Fconcat的形状重新变换为Cε×(H/ 4·W/4)；通常Cε远远大于32，所以概率阈值预测Fpt相比较于融合特征图Ffused更为轻量化，而且同样能为后续的解码提供一个强大的特征表示； S52、随后对概率阈值预测Fpt进行两次stride为2的反卷积得到一个通道数为2，大小为权　利　要　求　书 2/3 页 3 CN 115019143 A 3

专利 一种基于CNN和Transformer混合模型的文本检测方法

专利一种基于CNN和Transformer混合模型的文本检测方法