专利一种基于多空间联合感知的街景文本检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111644537.8 (22)申请日 2021.12.3 0 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人陈平平　陈瑛　林志坚　陈锋　 (74)专利代理机构福州元创专利商标代理有限公司 35100 代理人蔡学俊　薛金才 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多空间联合感知的街景文本检测方法 (57)摘要本发明提供了一种基于多空间联合感知的街景文本检测方法，具体步骤如下：步骤S1：获取自然街景下的文本图像数据集，并将其划分为训练集与测试集；步骤S2：构造基于多空间联合感知的深度卷积神经网络；步骤S3：将训练图像数据集输入到步骤S2构造的网络中进行训练；步骤 S4：将测试图像数据集输入至最优参数模型网络中进行预测；步骤S5：采用最小外接矩形算法生成文本实例的检测框，得到检测结果。不仅能够检测出任意形状的街景文本，而且能够保证文本检测的实时性。权利要求书2页说明书6页附图3页 CN 114332839 A 2022.04.12 CN 114332839 A 1.一种基于多空间联合感知的街景文本检测方法，其特征在于：具体步骤如下：步骤S1：获取自然街景下的文本图像数据集，并将其划分为训练集与测试集；步骤S2：构造基于多空间联合感知的深度卷积神经网络；步骤S3：将训练图像数据集输入到步骤S2构造的网络中进行训练；步骤S4：将测试图像数据集输入至最优参数模型网络中进行预测；步骤S5：采用最小外接矩形算法生成文本实例的检测框，得到检测结果。 2.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S1所使用的数据集为自然街景的全英文文本图像， ICDAR2015数据集包含1500张图像，其中1000张用于训练， 500张用于测试，图像中的文本行方向是任意的，提供单词级别的标注信息。 3.根据权利要求1或2所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：通过二值化方法将单词级别的标注区域转化为实例掩膜，即背景像素设为0，文本标注区域像素设为255；并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标签，用于网络训练和测试评估。 4.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2构造基于多空间联合感知的深度卷积神经网络，由轻量级的特征提取骨干、多尺度空间感知模块以及注意力空间感知模块构成；从特征骨干网络中提取4个不同尺度的特征图，并以此构建多尺度空间感知模块与注意力空间感知模块；将多尺度空间感知模块与注意力空间感知模块在同一尺度上的输出结果进行逐元素加法和上采样操作，从而得到最终用于输出的特征图。 5.根据权利要求4所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中构建多尺度空间感知模块增强不同尺度空间上对文本特征的感知，该模块采用深度可分离卷积来减小计算成本，主体结构包含四个阶段：信道降维阶段、自顶向下增强阶段、自底向上增强阶段、深浅层融合增强阶段。 6.根据权利要求5所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中构建注意力空间感知模块赋予文本特征注意力权重，利用全局平均池化与1维卷积来关注每个特征通道与范围与其邻近通道间的相关性。 7.根据权利要求6所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、通道数为512维的特征图，该特征图用于预测文本实例、文本中心实例以像素点嵌入表示。 8.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法，其特征在于：步骤S3中采用损失函数来训练优化网络各层的权重参数，该损失函数由文本实例优化损失函数LText、文本中心实例优化损失函数LCr、嵌入空间亲和度判别损失函数LESD共同构成：文本实例优化损失函数LText，文本中心实例优化损失函数LCr的表达式如下：权　利　要　求　书 1/2 页 2 CN 114332839 A 2式中， H表示交叉熵损失：即 i表示第i个像素点； PText、 PCr表示文本实例的分割结果； GText、 GCr表示真实文本标签区域；嵌入空间亲和度判别损失函数LESD表达式如下：式中， N是文本实例个数； [x]+表示max(x,0)，其中， Tiw表示第i个文本实例； Tit, 分别表示第i、 j个文本中心实例； f(p)表示该空间内文本实例像素点的特征向量； f(Tit), 分别表示文本中心实例Tit, 的特征向量，可由计算得到； δ在本文中设置为1。权　利　要　求　书 2/2 页 3 CN 114332839 A 3

专利 一种基于多空间联合感知的街景文本检测方法

专利一种基于多空间联合感知的街景文本检测方法