专利一种自然场景下的水平文本检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111663029.4 (22)申请日 2021.12.3 0 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人阎波　高一健　李达　唐亮　 (74)专利代理机构北京正华智诚专利代理事务所(普通合伙) 11870 代理人代维凡 (51)Int.Cl. G06V 30/148(2022.01) G06N 3/04(2006.01) G06V 10/762(2022.01) G06K 9/62(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 30/19(2022.01) (54)发明名称一种自然场景下的水平文本检测方法 (57)摘要本发明公开了一种自然场景下的水平文本检测方法，涉及计算机视觉目标检测领域，包括：选择包含水平文本的自然场景图片构建数据集；建立由特征提取子模型和文本检测子模型构成的水平文本检测模型，并根据数据集，优化文本检测子模型；采用迁移学习，通过损失函数，训练水平文本检测模型；基于嵌入式操作系统的软件开发工具包，将训练完成的水平文本检测模型部署在手持终端设备上；检测自然场景图片的水平文本。本发明拥有极快的检测速度，相对于现有技术，针对性和适用性高，检测精度高，且本发明提供的方法步骤可通过程序部署在移动端设备上。权利要求书3页说明书9页附图5页 CN 114332868 A 2022.04.12 CN 114332868 A 1.一种自然场景下的水平文本检测方法，其特征在于，包括以下步骤： S1、选择包含水平文本的自然场景图片构建数据集； S2、建立由特征提取子模型和文本检测子模型构成的水平文本检测模型，并根据数据集，优化文本检测子模型； S3、根据数据集，采用迁移学习，通过损失函数，训练水平文本检测模型； S4、基于嵌入式操作系统的软件开发工具包，将训练完成的水平文本检测模型部署在手持终端设备上； S5、通过步骤S4的手持终端设备，检测自然场景图片的水平文本。 2.根据权利要求1所述的自然场景下的水平文本检测方法，其特征在于，所述特征提取子模型包括：第一处理单元、第二处理单元、第三处理单元、第四处理单元、第五处理单元和第六处理单元；所述第一处理单元包括5个卷积模块和4个最大池化层，其输入端作为特征提取子模型的输入端，其输出端分别与第二处理单元的输入端和第五处理单元的第一输入端连接；所述第二处理单元包括3个卷积模块和2个最大池化层，其输出端分别与第三处理单元的输入端和第四处理单元的输入端连接；所述第三处理单元包括2个卷积模块，其输出端作为特征提取子模型的第一输出端；所述第四处理单元包括2个卷积模块和1个上采样层，其输出端与第五处理单元的第二输入端连接；所述第五处理单元为特征融合层，其输出端与第六处理单元的输入端连接；所述第六处理单元包括2个卷积模块，其输出端作为特征提取子模型的第二输出端。 3.根据权利要求2所述的自然场景下的水平文本检测方法，其特征在于，所述卷积模块均包括：卷积层、批量归一化层和激活函数层；所述卷积层的输入端作为卷积模块的输入端，其输出端与批量归一化层的输入端连接；所述批量归一化层的输出端与激活函数层的输入端连接；所述激活函数层的输出端作为卷积模块的输出端，其激活函数为 LeakReLU函数。 4.根据权利要求3所述的自然场景下的水平文本检测方法，其特征在于，所述第三处理单元和第六处理单元的所有卷积模块的卷积核尺寸均为3 ×1。 5.根据权利要求4所述的自然场景下的水平文本检测方法，其特征在于，所述文本检测子模型为YOLO LAYER检测层；其输入端与特征提取子模型的第一输出端和第二输出端连接；其包括K个先验锚框。 6.根据权利要求5所述的自然场景下的水平文本检测方法，其特征在于，所述步骤S2中根据数据集，优化文本检测子模型的方法包括以下步骤： A1、提取数据集中每张图片的文本区域尺寸大小分别作为各个样本； A2、任选择 K个样本作为初始的K个聚类中心{a1， a2，…， aK}； A3、计算每个样本分别到K个聚类中心的欧式距离，并将每个样本分别纳入与其欧氏距离最小的聚类中心的类别； A4、通过下式更新每个类别的聚类中心：权　利　要　求　书 1/3 页 2 CN 114332868 A 2其中， ak为第k个类别的聚类中心， sk为第k个类别， x为归属于第k个类别的样本， k为闭区间[1， K]内的正整数； A5、判断更新后每个类别的聚类中心是否改变，若是，则跳转至步骤A3，若否，则跳转至步骤A6； A6、将K个聚类中心的数值作为K个先验锚框的尺寸。 7.根据权利要求6所述的自然场景下的水平文本检测方法，其特征在于，所述步骤S3包括以下分步骤： S31、将COCO数据集上预训练的YOLOv3 ‑tiny模型参数迁移至水平文本检测模型； S32、根据数据集，通过损失函数，采用随机梯度下降方式训练水平文本检测模型。 8.根据权利要求7所述的自然场景下的水平文本检测方法，其特征在于，所述损失函数为： Loss＝lbox+lobj+lclass 其中， Loss为损失函数， lbox为先验锚框位置因素的检测误差， lobj为置信度因素的检测误差， lclass为检测类别因素的检测误差；其中， λbox为先验锚框位置因素比重， S2为输入文本检测子模型的特征图大小， B为先验锚框大小， i为特征图单元坐标索引号， j为先验锚框单元坐标索引号，为(i， j)处检测结果值，若(i， j)处有文本目标，则值为0，若(i， j)处没有文本目标，则值为1， (xi， yi， wi， hi)为(i， j)处预测得出的边界框位置信息， (xi， yi)为(i， j)处预测得出的边界框中心坐标， wi 为(i， j)处预测得出的边界框的宽， hi和为(i， j)处预测得出的边界框的高，为 (i， j)处真值边界框位置信息，为(i， j)处真值边界框中心坐标，为(i， j)处真值边界框宽， hi为(i， j)处真值边界框高；其中， λnoobj为预测得出的边界框中不存在对象的置信度权重， λobj为预测得出的边界框中存在对象的置信度权重，为(i， j)处不存在文本目标的状态值，若(i， j)处没有文本目标，则值为1，若(i， j)处有文本目标，则值为0， ci为特征图第i单元坐标处预测得出的边界框负责预测目标的置信度，为真实情况下特征图第i单元坐标处预测得权　利　要　求　书 2/3 页 3 CN 114332868 A 3

专利 一种自然场景下的水平文本检测方法

专利一种自然场景下的水平文本检测方法