说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613091.0 (22)申请日 2022.05.31 (71)申请人 北京开拓鸿业高科技有限公司 地址 100080 北京市海淀区海淀东 三街2号 13层1301-07 (72)发明人 刘腾龙  (74)专利代理 机构 北京英创嘉友知识产权代理 事务所(普通 合伙) 11447 专利代理师 温易娜 (51)Int.Cl. G06V 30/148(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 30/414(2022.01) (54)发明名称 文字检测方法、 装置、 可读介质及电子设备 (57)摘要 本公开涉及人工智能技术领域, 具体地, 涉 及一种文字检测方法、 装置、 可读介质及电子设 备。 通过该文字检测方法、 装置、 可读介质及电子 设备: 将待检测图像输入预设文字检测模型, 得 到多张单位文字区域尺寸不同的预测文字区域 图; 对多张预测文字区域图基于内核扩张算法进 行后处理, 得到最终预测文字区域图。 因此, 本公 开提供的技术方案, 可以很好地解决单位文字区 域形状不规则、 多个单位文字区域相邻紧凑导致 检测正确率低的问题, 提高文字 检测正确率。 权利要求书3页 说明书9页 附图2页 CN 115063806 A 2022.09.16 CN 115063806 A 1.一种文字检测方法, 其特 征在于, 所述方法包括: 将待检测图像输入预设文字检测模型, 得到多 张单位文字区域尺寸不同的预测文字区 域图; 对目标预测文字区域图在监督预测文字区域图的监督下进行像素扩张, 得到中间扩 张图, 其中, 所述 目标预测文字区域图为多张所述预测文字区域图中单位文字区域尺寸最 小的预测文字区域图, 所述监督预测文字区域图为多张所述预测文字区域图中单位文字区 域的尺寸排序与所述目标预测文字区域图相 邻, 且尺寸大于所述目标预测文字区域图的预 测文字区域图; 针对获取的中间扩张图, 在新的监督预测文字区域图的监督下进行像素扩张, 直至新 的监督预测文字区域图为多张预测文字区域图中单位文字区域尺寸最大的预测文字区域 图时, 获得的中间扩张图为 最终预测文字区域图; 其中, 所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排 序与上一张监督预测文字区域图相邻, 且尺寸大于上一张监督预测文字区域图的预测文字 区域图。 2.根据权利要求1所述的文字检测方法, 其特征在于, 将待检测图像输入预设文字检测 模型, 得到多张单位文字区域尺寸不同的预测文字区域图包括基于所述预设文字检测模型 执行的以下步骤: 对待检测图像进行特征提取, 获得多张目标特征图, 该多张目标特征图来源于特征提 取的不同层; 对所述多张目标 特征图进行双向融合, 得到多张第一融合特 征图; 对于每张第一融合特征图, 通过一个3x3的卷积核、 两个连续的3x3的卷积核以及三个 连续的3x3的卷积核来扩大感受野, 得到第二融合特 征图; 对多张第二融合特征图进行上采样及拼接, 得到一张第三融合特征图, 所述第三融合 特征图的尺寸与所述多张第二融合特 征图中最大尺寸相同; 减少所述第三融合特 征图的通道数, 得到第四融合特 征图; 通过多个1x1卷积核对所述第四融合特征图进行处理, 得到多张第五融合特征图, 其 中, 所述1x1卷积核的个数与所述预测文字区域图的张数相同, 每张所述第五融合特征图的 通道数为2且张数与所述预测文字区域图的张数相同; 对所述多张第五融合特征图进行上采样, 得到多张第六融合特征图, 每张所述第六融 合特征图的尺寸与所述待检测图像相同; 对多张第六融合特征图进行预测, 得到多张单位文字区域尺寸不同的预测文字区域 图。 3.根据权利要求2所述的文字检测方法, 其特征在于, 所述预设文字检测模型是通过如 下方式进行训练的: 针对图像集内的每张图像, 根据用户输入的标注指令对该图像中所有单位文字区域进 行标注, 得到第一标注图像, 并对所述第一标注图像中所有单位文字区域按不同内缩距离 进行多次内缩, 得到多张第二标注图像, 所述标注指令为根据固定顺序依 次表示的图像中 所有单位文字区域的坐标; 基于所述图像集, 对一多分支模型进行训练, 得到预设文字检测模型。 4.根据权利要求2所述的文字检测方法, 其特征在于, 所述预设文字检测模型是通过如权 利 要 求 书 1/3 页 2 CN 115063806 A 2下方式进行训练的: 针对图像集内的每张图像, 根据用户输入的标注指令对该图像中所有单位文字区域进 行标注, 得到第一标注图像, 并对所述第一标注图像中所有单位文字区域按不同内缩距离 进行多次内缩, 得到多张第二标注图像, 所述标注指令为根据固定顺序依 次表示的图像中 所有单位文字区域的坐标; 基于所述图像集, 对一个多分支模型进行训练, 得到多分支检测模型; 对所述多分支检测模型进行网络重构, 获得单分支检测模型, 将所述单分支检测模型 作为预设文字检测模型。 5.一种文字检测装置, 其特 征在于, 所述文字检测装置包括: 检测模块, 用于将待检测图像输入预设文字检测模型, 得到多张单位文字区域尺寸不 同的预测文字区域图; 后处理模块, 用于对目标预测文字区域图在监督预测文字区域图的 监督下进 行像素扩张, 得到中间扩张图, 其中, 所述目标预测文字区域图为多张所述预测文 字区域图中单位文字区域尺寸最小的预测文字区域图, 所述监督预测文字区域图为多张所 述预测文字区域图中单位文字区域的尺寸排序与所述目标预测文字区域图相 邻, 且尺寸大 于所述目标预测文字区域图的预测文字区域图; 针对获取 的中间扩张图, 在新的监督预测 文字区域图的监督下进行像素扩张, 直至新的监督预测文字区域图为多张预测文字区域图 中单位文字区域尺寸最大的预测文字区域图时, 获得的中间扩张图为最终预测文字区域 图; 其中, 所述新的监督预测文字区域图为多张预测文字区域图中单位文字区域的尺寸排 序与上一张监督预测文字区域图相邻, 且尺寸大于上一张监督预测文字区域图的预测文字 区域图。 6.根据权利要求5所述的文字检测装置, 其特征在于, 所述检测模块具体用于基于所述 预设文字检测模型, 对待检测图像进 行特征提取, 获得多张目标特征图, 该多张目标特征图 来源于特征提取 的不同层; 对所述多张目标特征图进行双向融合, 得到多张第一融合特征 图; 对于每张第一融合特征图, 通过一个3x3的卷积核、 两个连续的3x3的卷积核以及三个连 续的3x3的卷积核来扩大感受野, 得到第二融合特征图; 对多张第二融合特征图进 行上采样 及拼接, 得到一张第三融合特征图, 所述第三融合特征图的尺寸与所述多张第二融合特征 图中最大尺寸相同; 减少所述第三融合特征图的通道数, 得到第四融合特征图; 通过多个 1x1卷积核对 所述第四融合特征图进 行处理, 得到多张第五融合特征图, 其中, 所述 1x1卷积 核的个数与所述预测文字区域图的张数相同, 每张所述第 五融合特征图的通道数为2且张 数与所述预测文字区域图的张数相同; 对所述多张第 五融合特征图进行上采样, 得到多张 第六融合特征图, 每张所述第六融合特征图的尺寸与所述待检测图像相同; 对多张第六融 合特征图进行 预测, 得到多张单位文字区域尺寸 不同的预测文字区域图。 7.根据权利要求6所述的文字检测装置, 其特征在于, 所述预设文字检测模型是通过如 下方式进行训练的: 针对图像集内的每张图像, 根据用户输入的标注指令对该图像中所有单位文字区域进 行标注, 得到第一标注图像, 并对所述第一标注图像中所有单位文字区域按不同内缩距离 进行多次内缩, 得到多张第二标注图像, 所述标注指令为根据固定顺序依 次表示的图像中 所有单位文字区域的坐标; 基于所述图像集, 对一多分支模型进行训练, 得到预设文字检测模型。权 利 要 求 书 2/3 页 3 CN 115063806 A 3

.PDF文档 专利 文字检测方法、装置、可读介质及电子设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文字检测方法、装置、可读介质及电子设备 第 1 页 专利 文字检测方法、装置、可读介质及电子设备 第 2 页 专利 文字检测方法、装置、可读介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。