专利文字检测方法、装置、可读介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210613091.0 (22)申请日 2022.05.31 (71)申请人北京开拓鸿业高科技有限公司地址 100080 北京市海淀区海淀东三街2号 13层1301-07 (72)发明人刘腾龙　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师温易娜 (51)Int.Cl. G06V 30/148(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 30/414(2022.01) (54)发明名称文字检测方法、装置、可读介质及电子设备 (57)摘要本公开涉及人工智能技术领域，具体地，涉及一种文字检测方法、装置、可读介质及电子设备。通过该文字检测方法、装置、可读介质及电子设备：将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图；对多张预测文字区域图基于内核扩张算法进行后处理，得到最终预测文字区域图。因此，本公开提供的技术方案，可以很好地解决单位文字区域形状不规则、多个单位文字区域相邻紧凑导致检测正确率低的问题，提高文字检测正确率。权利要求书3页说明书9页附图2页 CN 115063806 A 2022.09.16 CN 115063806 A 1.一种文字检测方法，其特征在于，所述方法包括：将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图；对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图，其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图；针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图；其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。 2.根据权利要求1所述的文字检测方法，其特征在于，将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图包括基于所述预设文字检测模型执行的以下步骤：对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层；对所述多张目标特征图进行双向融合，得到多张第一融合特征图；对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第二融合特征图；对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同；减少所述第三融合特征图的通道数，得到第四融合特征图；通过多个1x1卷积核对所述第四融合特征图进行处理，得到多张第五融合特征图，其中，所述1x1卷积核的个数与所述预测文字区域图的张数相同，每张所述第五融合特征图的通道数为2且张数与所述预测文字区域图的张数相同；对所述多张第五融合特征图进行上采样，得到多张第六融合特征图，每张所述第六融合特征图的尺寸与所述待检测图像相同；对多张第六融合特征图进行预测，得到多张单位文字区域尺寸不同的预测文字区域图。 3.根据权利要求2所述的文字检测方法，其特征在于，所述预设文字检测模型是通过如下方式进行训练的：针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；基于所述图像集，对一多分支模型进行训练，得到预设文字检测模型。 4.根据权利要求2所述的文字检测方法，其特征在于，所述预设文字检测模型是通过如权　利　要　求　书 1/3 页 2 CN 115063806 A 2下方式进行训练的：针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；基于所述图像集，对一个多分支模型进行训练，得到多分支检测模型；对所述多分支检测模型进行网络重构，获得单分支检测模型，将所述单分支检测模型作为预设文字检测模型。 5.一种文字检测装置，其特征在于，所述文字检测装置包括：检测模块，用于将待检测图像输入预设文字检测模型，得到多张单位文字区域尺寸不同的预测文字区域图；后处理模块，用于对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张，得到中间扩张图，其中，所述目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最小的预测文字区域图，所述监督预测文字区域图为多张所述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相邻，且尺寸大于所述目标预测文字区域图的预测文字区域图；针对获取的中间扩张图，在新的监督预测文字区域图的监督下进行像素扩张，直至新的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域图时，获得的中间扩张图为最终预测文字区域图；其中，所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排序与上一张监督预测文字区域图相邻，且尺寸大于上一张监督预测文字区域图的预测文字区域图。 6.根据权利要求5所述的文字检测装置，其特征在于，所述检测模块具体用于基于所述预设文字检测模型，对待检测图像进行特征提取，获得多张目标特征图，该多张目标特征图来源于特征提取的不同层；对所述多张目标特征图进行双向融合，得到多张第一融合特征图；对于每张第一融合特征图，通过一个3x3的卷积核、两个连续的3x3的卷积核以及三个连续的3x3的卷积核来扩大感受野，得到第二融合特征图；对多张第二融合特征图进行上采样及拼接，得到一张第三融合特征图，所述第三融合特征图的尺寸与所述多张第二融合特征图中最大尺寸相同；减少所述第三融合特征图的通道数，得到第四融合特征图；通过多个 1x1卷积核对所述第四融合特征图进行处理，得到多张第五融合特征图，其中，所述 1x1卷积核的个数与所述预测文字区域图的张数相同，每张所述第五融合特征图的通道数为2且张数与所述预测文字区域图的张数相同；对所述多张第五融合特征图进行上采样，得到多张第六融合特征图，每张所述第六融合特征图的尺寸与所述待检测图像相同；对多张第六融合特征图进行预测，得到多张单位文字区域尺寸不同的预测文字区域图。 7.根据权利要求6所述的文字检测装置，其特征在于，所述预设文字检测模型是通过如下方式进行训练的：针对图像集内的每张图像，根据用户输入的标注指令对该图像中所有单位文字区域进行标注，得到第一标注图像，并对所述第一标注图像中所有单位文字区域按不同内缩距离进行多次内缩，得到多张第二标注图像，所述标注指令为根据固定顺序依次表示的图像中所有单位文字区域的坐标；基于所述图像集，对一多分支模型进行训练，得到预设文字检测模型。权　利　要　求　书 2/3 页 3 CN 115063806 A 3

专利 文字检测方法、装置、可读介质及电子设备

专利文字检测方法、装置、可读介质及电子设备