说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111644537.8 (22)申请日 2021.12.3 0 (71)申请人 福州大学 地址 350108 福建省福州市闽侯县福州大 学城乌龙江北 大道2号福州大 学 (72)发明人 陈平平 陈瑛 林志坚 陈锋  (74)专利代理 机构 福州元创专利商标代理有限 公司 35100 代理人 蔡学俊 薛金才 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 10/774(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多空间联合感知的街景文本检测 方法 (57)摘要 本发明提供了一种基于多空间联合感知的 街景文本检测方法, 具体步骤如下: 步骤S1: 获取 自然街景下的文本图像数据集, 并将其划分为训 练集与测试集; 步骤S2: 构造基于多空间联合感 知的深度卷积神经网络; 步骤S3: 将训练图像数 据集输入到步骤S2构造的网络中进行训练; 步骤 S4: 将测试图像数据集输入至最优参数模型网络 中进行预测; 步骤S5: 采用最小外接矩形算法生 成文本实例的检测框, 得到检测结果。 不仅能够 检测出任意形状的街景文本, 而且能够保证文本 检测的实时性。 权利要求书2页 说明书6页 附图3页 CN 114332839 A 2022.04.12 CN 114332839 A 1.一种基于多空间联合感知的街景文本检测方法, 其特 征在于: 具体步骤如下: 步骤S1: 获取自然街景 下的文本图像数据集, 并将其划分为训练集与测试集; 步骤S2: 构造基于多空间联合感知的深度卷积神经网络; 步骤S3: 将训练图像数据集输入到步骤S2构造的网络中进行训练; 步骤S4: 将测试图像数据集输入至最优参数模型网络中进行 预测; 步骤S5: 采用最小外 接矩形算法生成文本实例的检测框, 得到检测结果。 2.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S1所使用的数据集为自然街景的全英文文本图像, ICDAR2015数据集包含1500张图像, 其中1000张用于训练, 500张用于测试, 图像中的文本行方向是任意的, 提供单词级别的标 注信息。 3.根据权利要求1或2所述的一种基于多空间联合感知的街景文本检测方法, 其特征在 于: 通过二值化方法将单词级别的标注 区域转化为实例掩膜, 即背景像素设为0, 文本标注 区域像素设为255; 并使用裁剪算法将文本实例区域缩放至0.5倍生成文本中心实例掩膜标 签, 用于网络训练和 测试评估。 4.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S2构造基于多空间联合感知的深度卷积神经网络, 由轻量级的特征提取骨干、 多尺度 空间感知模块以及注意力空间感知模块构成; 从特征骨干网络中提取4个不同尺度的特征 图, 并以此构建多尺度 空间感知模块与注意力空间感知模块; 将多尺度 空间感知模块与注 意力空间感知 模块在同一尺度上的输出结果进行逐元素加法和上采样操作, 从而得到最 终 用于输出的特 征图。 5.根据权利要求4所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S2中构建多尺度空间感知 模块增强不同尺度空间上对文本特征的感知, 该模块采用深 度可分离卷积来减小计算成本, 主体结构包含四个阶段: 信道降维阶段、 自顶向下增强阶 段、 自底向上增强阶段、 深浅层融合增强阶段。 6.根据权利要求5所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S2中构建注意力空间感知模块赋予文本特征注意力权重, 利用全局平均池化与1维卷 积来关注每 个特征通道与范围与其邻近通道间的相关性。 7.根据权利要求6所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S2中经过上采样和拼接操作将不同尺度的特征图融合成一个尺寸为原图大小的1/4、 通道数为512维的特 征图, 该特征图用于预测文本实例、 文本中心实例以像素点嵌入表示。 8.根据权利要求1所述的一种基于多空间联合感知的街景文本检测方法, 其特征在于: 步骤S3中采用损失函数来训练优化网络各层的权重参数, 该损失函数由文本实例优化损失 函数LText、 文本中心实例优化损失函数LCr、 嵌入空间亲和度判别损失函数LESD共同构成: 文本实例优化损失函数LText, 文本中心实例优化损失函数LCr的表达式如下: 权 利 要 求 书 1/2 页 2 CN 114332839 A 2式中, H表示交叉熵损失: 即 i表示第i个像素点; PText、 PCr表 示文本实例的分割结果; GText、 GCr表示真实文本标签区域; 嵌入空间亲和度判别损失函数LESD表达式如下: 式中, N是文本实例个数; [x]+表示max(x,0), 其中, Tiw表示第i个文本实例; Tit, 分别表示 第i、 j个文本中心 实例; f(p)表示该空间内文本实例像素点的特征向量; f(Tit), 分别 表示文本中心实例Tit, 的特征向量, 可由 计算得到; δ在本文中设置为1。权 利 要 求 书 2/2 页 3 CN 114332839 A 3

.PDF文档 专利 一种基于多空间联合感知的街景文本检测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多空间联合感知的街景文本检测方法 第 1 页 专利 一种基于多空间联合感知的街景文本检测方法 第 2 页 专利 一种基于多空间联合感知的街景文本检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:54:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。