(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210677277.2
(22)申请日 2022.06.16
(71)申请人 湖南大学
地址 410082 湖南省长 沙市岳麓区麓山 南
路1号湖南大 学
(72)发明人 尤志强 杨静 钟志伟
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 30/14(2022.01)
G06V 30/148(2022.01)
G06V 10/774(2022.01)
G06V 10/30(2022.01)
G06V 10/28(2022.01)
(54)发明名称
一种基于CNN和Transformer混合模型的文
本检测方法
(57)摘要
本发明公开了一种基于CNN和Transformer
混合模型的文本检测方法。 该方法采用CNN提取
出文本图像一系列不同尺度的基本特征, 通过
Transformer生成权重嵌入和概率阈值嵌入。 利
用权重嵌入生成注意力权重, 对不同尺度基本特
征进行动态尺度融合, 得到一个具有强大特征表
示能力的融合特征图; 对概率阈值嵌入和融合特
征图进行标量积相乘得到一个结构轻便且同样
具有强大表示能力的概率阈值预测; 随后, 对概
率阈值预测进行反卷积得到概率图和阈值图; 最
后, 通过一个近似二值化公式得到文本图像的二
值图, 在二值图上寻找联通区域 即可得到文本的
边界框。 本发 明能有效地提取图像的局部信息和
全局信息, 使得解码后的特征包含 更多更精准的
文本信息, 显著提高了文本 检测的精度。
权利要求书3页 说明书6页 附图4页
CN 115019143 A
2022.09.06
CN 115019143 A
1.一种基于 CNN和Transformer混合模型的文本检测方法, 其特 征是, 包括以下步骤:
S1、 获取自然场景文本公共数据集并对文本图像作一系列数据增强以提高模型的鲁棒
性; 为了提高训练效率, 将所有输入图片统一放缩到H ×W; 其中H和W分别代表 图像的长和
宽; 自然场景文本公共数据集包括多 方向文本数据集ICDAR2015、 弯曲文本数据集CTW ‑1500
和Total‑Text;
S2、 使用一个基本特征模块对所述自然场景文本图像提取得到4个不同尺度的特征图:
Pi, i∈{2,3,4,5}, 其图像大小分别为输入图片大小的1/4、 1/8、 1/16、 1/32; 随后对这些不
同尺度特 征图上采样至和P2同一尺度, 得到通道数均为C的F2、 F3、 F4、 F5;
S3、 将低分辨率特征图P5和N个查询送入到Transformer模块里得到N个嵌入; 随即通过
一个三层的多层感知机对嵌入作进一步的信息解码, 得到N个维度为Cε的功能嵌入, 其中Cε
等于步骤S2所述拼接特征图Fconcat的通道数, 即有Cε=4C; N个功能嵌入包含 了N1个权重嵌入
εw和N2个概率阈值嵌入εpt; 其中N1等于步骤S2中需要融合的特征图数目, 即为4; N值是通过
自适应的方式获得的, 它等于 N1和N2的相加; 对于不同应用场景可以有不同的N值; 本发明将
N设置为3 6;
S4、 对步骤S2所述的同一尺度特征图F2、 F3、 F4、 F5进行动态融合得到融合特征图Ffused,
融合特征图为后续的解码提供了一个强大的特 征表示;
S5、 通过一个近似二值化模块对步骤S4中所述融合特征图进行解码得到概率图和阈值
图, 运用一个近似二值化公式对概率图和阈值图进行计算得到二值图; 根据二值图预测得
到最后的文本 框。
2.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法, 其
特征在于, 所述步骤S2具体为, 对低分辨率特征图Pi+1和高分辨率特征图Pi进行1×1的卷
积, 使得他们通道数均变为C; 通道数C设置为64; 然后对Pi+1卷积后的特征图进行2 倍的上采
样和Pi卷积后的特征图进行相加; 随后 对相加得到的特征图进行最邻近上采样至和特征图
P2同一尺度, 得到F2、 F3、 F4、 F5; 下面的公式可以概 括上述过程:
其中
表示进行2i‑2倍的上采样, Co nvk×k(:)表示k×k的卷积核。
3.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法, 其
特征在于, 步骤S3中, 所述Transformer模块里不含编码器, 仅由6个解码器组成; 每个解码
器中含有一个多头自注 意力(MSA)单元、 一个多头交叉注 意力(MCA)单元和一个多层感知机
单元(MLP); 记每个解码器的输入为zi‑1、 输出为zi, LN表示层归一化, 则解码器的计算公式
如下:
其中ai‑1和ci‑1仅表示中间变量, i∈{1,2,...,6}; 自注意力机制由三个逐点线性层组
成, 将输入zi‑1映射到中间表示: 查询Q、 键K和值V; 其中, 逐点线性层由输入zi‑1和一个可学权 利 要 求 书 1/3 页
2
CN 115019143 A
2习的矩阵相乘得到; 自注意力机制的计算公式如下:
交叉注意力机制(MCA)也由三个逐点线性层组成, 其中查询Q由ai‑1映射得到, 键
和值
由权利要求1中步骤S2所述的低分辨率特征图P5映射得到; 交叉注意力机制的计算公式如
下:
自注意力 机制以及交叉注意力 机制由于其本身特性, 在计算过程中会对输入中的每个
向量都进行信息的交 互, 因此能轻松建模远程语义依赖关系并较好 地捕获全局范围特 征。
4.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法, 其
特征在于, 所述步骤S4具体为, 首先将权利要求1中的步骤S2所述F2、 F3、 F4、 F5沿通道方向进
行拼接, 得到通道数为4C的拼接特征图Fconcat; 然后对权利要求1中的步骤S3所述转置后的
权重嵌入
和拼接特征图Fconcat∈R4C×H/4×W/4作标量积相乘, 随后对相乘的结果进行
sigmoid函数激活得到注意力权重Fw∈R4×H/4×W/4, 其值在0到1之间, 可以达到强化有用图像
信息和抑制无用信息的效果; 该 过程的计算公式如下:
其中Reshape(4C,H/4 ·W/4)(Fconcat)表示将拼接特征图Fconcat的形状重新变换为4C ×
(H/4·W/4), σ 表示sigmoid激活函数; 最后, 我们将注意力权重沿通道维度划分为4部分, 并
与权利要求1中步骤S2所述相应的缩放特征Fi进行加权乘法以获得融合特征图Ffused∈R4C
×H/4×W/4。
5.根据权利要求1中所述的一种基于CNN和Transformer混合模型的文本检测方法, 其
特征在于, 所述 步骤S5具体包括以下三个步骤:
S51、 对权利要求4中的步骤S4所述融合特征图Ffused∈R4C×H/4×W/4(4C=Cε)和权利要求1
中的步骤S3 所述转置后的概率阈值嵌入
进行标量积相乘得到概率阈值预测Fpt∈
R32×H/4×W/4, 该过程的计算公式如下:
其中Reshape(Cε,H/4·W/4)(Ffused)表示将拼接特征图Fconcat的形状重新变换为Cε×(H/
4·W/4); 通常Cε远远大于32, 所以概率 阈值预测Fpt相比较于融合特征图Ffused更为轻量化,
而且同样能为后续的解码提供一个强大的特 征表示;
S52、 随后对概率阈值预测Fpt进行两次stride为2的反卷积得到一个通道 数为2, 大小为权 利 要 求 书 2/3 页
3
CN 115019143 A
3
专利 一种基于CNN和Transformer混合模型的文本检测方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:25:49上传分享