说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111663029.4 (22)申请日 2021.12.3 0 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 阎波 高一健 李达 唐亮  (74)专利代理 机构 北京正华智诚专利代理事务 所(普通合伙) 11870 代理人 代维凡 (51)Int.Cl. G06V 30/148(2022.01) G06N 3/04(2006.01) G06V 10/762(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 30/19(2022.01) (54)发明名称 一种自然场景 下的水平文本 检测方法 (57)摘要 本发明公开了一种自然场景下的水平文本 检测方法, 涉及计算机视觉目标检测领域, 包括: 选择包含水平文本的自然场景图片构建数据集; 建立由特征提取子模型和文本检测子模型构成 的水平文本检测模型, 并根据数据集, 优化文本 检测子模型; 采用迁移学习, 通过损失函数, 训练 水平文本检测模 型; 基于嵌入式操作系统的软件 开发工具包, 将训练完成的水平文本检测模型部 署在手持终端设备上; 检测自然场景图片的水平 文本。 本发明拥有极快的检测速度, 相对于现有 技术, 针对性和适用性高, 检测精度高, 且本发明 提供的方法步骤可通过程序部署在移动端设备 上。 权利要求书3页 说明书9页 附图5页 CN 114332868 A 2022.04.12 CN 114332868 A 1.一种自然场景 下的水平文本检测方法, 其特 征在于, 包括以下步骤: S1、 选择包 含水平文本的自然场景图片 构建数据集; S2、 建立由特征提取子模型和文本检测子模型构成的水平文本检测模型, 并根据数据 集, 优化文本检测子模型; S3、 根据数据集, 采用迁移学习, 通过损失函数, 训练水平文本检测模型; S4、 基于嵌入式操作系统的软件开发工具包, 将训练完成的水平文本检测模型部署在 手持终端设备 上; S5、 通过步骤S4的手持终端设备, 检测自然场景图片的水平文本 。 2.根据权利要求1所述的自然场景下的水平文本检测方法, 其特征在于, 所述特征提取 子模型包括: 第一处理单元、 第二处理单元、 第三处理单元、 第四处理单元、 第五处理单元和 第六处理单元; 所述第一处理单元包括5个卷积模块和4个最大池化层, 其输入端作为特征提取子模型 的输入端, 其输出端分别与第二处 理单元的输入端和第五处 理单元的第一输入端连接; 所述第二处理单元包括3个卷积模块和2个最大池化层, 其输出端分别与第 三处理单元 的输入端和第四处 理单元的输入端连接; 所述第三处 理单元包括2个卷积模块, 其输出端作为特 征提取子模型的第一输出端; 所述第四处理单元包括2个卷积模块和1个上采样层, 其输出端与第五处理单元的第二 输入端连接; 所述第五处 理单元为特征融合层, 其输出端与第六处 理单元的输入端连接; 所述第六处 理单元包括2个卷积模块, 其输出端作为特 征提取子模型的第二输出端。 3.根据权利要求2所述的自然场景下的水平文本检测方法, 其特征在于, 所述卷积模块 均包括: 卷积层、 批量归一 化层和激活函数层; 所述卷积层的输入端作为卷积模块的输入端, 其输出端与批量归一化层的输入端连 接; 所述批量归一 化层的输出端与激活函数层的输入端连接; 所述激活函数层的输出端作为卷积模块的输出端, 其激活函数为 LeakReLU函数。 4.根据权利要求3所述的自然场景下的水平文本检测方法, 其特征在于, 所述第 三处理 单元和第六处 理单元的所有卷积模块的卷积核尺寸均为3 ×1。 5.根据权利要求4所述的自然场景下的水平文本检测方法, 其特征在于, 所述文本检测 子模型为YOLO  LAYER检测层; 其输入端与特征提取子模型的第一输出端和第二输出端连 接; 其包括K个先验 锚框。 6.根据权利要求5所述的自然场景下的水平文本检测方法, 其特征在于, 所述步骤S2中 根据数据集, 优化文本检测子模型的方法包括以下步骤: A1、 提取数据集中每张图片的文本区域尺寸大小分别作为各个样本; A2、 任选择 K个样本作为初始的K个聚类中心{a1, a2,…, aK}; A3、 计算每个样本分别到K个聚类 中心的欧式距离, 并将每个样本分别纳入与其欧氏距 离最小的聚类中心的类别; A4、 通过下式更新每 个类别的聚类中心:权 利 要 求 书 1/3 页 2 CN 114332868 A 2其中, ak为第k个类别的聚类中心, sk为第k个类别, x为归属于第k个类别的样本, k为闭 区间[1, K]内的正整数; A5、 判断更新后 每个类别的聚类中心是否改变, 若是, 则跳转至步骤A3, 若否, 则跳转至 步骤A6; A6、 将K个聚类中心的数值作为K个先验 锚框的尺寸。 7.根据权利要求6所述的自然场景下的水平文本检测方法, 其特征在于, 所述步骤S3包 括以下分步骤: S31、 将COCO数据集上 预训练的YOLOv3 ‑tiny模型参数迁移至水平文本检测模型; S32、 根据数据集, 通过损失函数, 采用随机梯度下降方式训练水平文本检测模型。 8.根据权利要求7所述的自然场景下的水平文本检测方法, 其特征在于, 所述损失函数 为: Loss=lbox+lobj+lclass 其中, Loss为损失函数, lbox为先验锚框位置因素的检测误差, lobj为置信度因素的检测 误差, lclass为检测类别因素的检测误差; 其中, λbox为先验锚框位置因素比重, S2为输入文本检测子模型的特征图大小, B为先验锚 框大小, i为特征图单元坐标索引号, j为先验锚框单元坐标索引号, 为(i, j)处检测结果 值, 若(i, j)处有文本目标, 则 值为0, 若(i, j)处没有文本目标, 则 值为1, (xi, yi, wi, hi)为(i, j)处预测得出的边界框位置信息, (xi, yi)为(i, j)处预测得出的边界框中心坐标, wi 为(i, j)处预测得出的边界框的宽, hi和为(i, j)处预测得出的边界框的高, 为 (i, j)处真值边界框位置信息, 为(i, j)处真值边界框中心坐标, 为(i, j)处真值 边界框宽, hi为(i, j)处真值 边界框高; 其中, λnoobj为预测得出的边界框中不存在对象的置信度权重, λobj为预测得出的边界框 中存在对 象的置信度权重, 为(i, j)处不存在文本目标 的状态值, 若(i, j)处没有文 本目标, 则 值为1, 若(i, j)处有文本目标, 则 值为0, ci为特征图第i单元坐标处 预测得出的边界框负责预测目标的置信度, 为真实情况下特征 图第i单元坐标处预测得权 利 要 求 书 2/3 页 3 CN 114332868 A 3

.PDF文档 专利 一种自然场景下的水平文本检测方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种自然场景下的水平文本检测方法 第 1 页 专利 一种自然场景下的水平文本检测方法 第 2 页 专利 一种自然场景下的水平文本检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。