说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111647444.0 (22)申请日 2021.12.2 9 (71)申请人 北京百度网讯科技有限公司 地址 100089 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 乔美娜 刘珊珊 吴亮 章成全  姚锟  (74)专利代理 机构 北京乐知新创知识产权代理 事务所(普通 合伙) 11734 专利代理师 王曌寅 (51)Int.Cl. G06N 3/04(2006.01) G06V 30/10(2022.01) G06V 30/18(2022.01) G06N 3/08(2006.01)G06V 30/40(2022.01) (54)发明名称 一种文本 检测方法、 装置、 设备及存 储介质 (57)摘要 本公开提供了一种文本检测方法、 装置、 设 备及存储介质, 涉及计算机技术领域, 尤其涉及 光学字符识别(OCR, Optical  Character   Recognition)领域。 具体实现方案为: 获取待检 测图像; 对所述待检测图像进行特征提取, 得到 第一特征图; 根据所述待检测图像和所述第一特 征图得到主体检测结果; 对所述第一特征图进行 光学字符识别OCR处理, 得到文字检测结果, 所述 文字检测结果包括所述待检测图像中每一文本 行的坐标; 根据所述主体检测结果和所述文字检 测结果, 确定所述待检测图像的文本中心行坐 标。 本公开通过主体检测与文字检测相结合的检 测方法, 可以提高文本中心行的检测精度。 权利要求书3页 说明书11页 附图8页 CN 114492733 A 2022.05.13 CN 114492733 A 1.一种文本检测方法, 包括: 获取待检测图像; 对所述待检测图像进行 特征提取, 得到第一特 征图; 根据所述待检测图像和所述第一特 征图得到主体 检测结果; 对所述第一特征图进行光学字符识别OCR处理, 得到文字检测结果, 所述文字检测结果 包括所述待检测图像中每一文本行的坐标; 根据所述主体检测结果和所述文字检测结果, 确定所述待检测图像的文本中心行坐 标。 2.根据权利要求1所述的方法, 其中, 所述根据待检测图像和所述第 一特征图得到主体 检测结果, 包括: 根据所述待检测图像, 得到所述待检测图像的中心区域的坐标; 根据所述第一特征图与所述中心区域的坐标, 得到第二特征图, 所述第二特征图为所 述中心区域的特 征图; 对所述第二特 征图进行 上采样操作, 得到所述主体 检测结果。 3.根据权利要求2所述的方法, 其中, 所述主体 检测结果 为一个由0和1组成的矩阵; 若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对 应的像素为文字, 则对应点在所述矩阵内的元 素为1; 若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对 应的像素不 为文字, 则对应点在所述矩阵内的元 素为0。 4.根据权利要求2所述的方法, 其中, 所述根据主体检测结果和文字检测结果, 得到所 述待检测图像的文本中心行坐标, 包括: 根据所述主体 检测结果, 得到所述中心区域是否包 含文本行的第一判断结果; 所述第一判断结果为所述中心区域不包含文本行, 则根据 所述文字检测结果和所述中 心区域的坐标, 将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心 行坐标; 所述第一判断结果为所述中心区域包含文本行, 则根据所述文字检测结果, 得到所述 文字检测结果是否包 含所述文本行的坐标的第二判断结果; 根据所述第二判断结果, 确定所述待检测图像的文本中心行坐标。 5.根据权利要求4所述的方法, 其中, 所述根据主体检测结果, 得到所述中心区域是否 包含文本行的第一判断结果, 包括: 根据所述中心区域的坐标, 计算所述中心区域的面积; 根据所述主体 检测结果, 计算所述中心区域中最大 连通域的面积; 所述最大连通域的面积与 所述中心区域的面积的比值大于第 一阈值, 则所述中心区域 包含文本行; 所述最大连通域的面积与 所述中心区域的面积的比值不大于第 一阈值, 则所述中心区 域不包含文本行。 6.根据权利要求4所述的方法, 其中, 根据所述文字检测结果, 得到所述文字检测结果 是否包含所述文本行的坐标的第二判断结果, 包括: 根据所述文字检测结果和所述中心区域的坐标, 计算所述待检测图像中每一文本行与权 利 要 求 书 1/3 页 2 CN 114492733 A 2所述中心区域的交并比, 并选取最大交并比; 所述最大交并比大于第二阈值, 则所述文字检测结果包 含所述文本行的坐标; 所述最大交并比不大于第二阈值, 则所述文字检测结果 不包含所述文本行的坐标。 7.根据权利要求6所述的方法, 其中, 所述根据第二判断结果, 确定所述待检测图像的 文本中心行坐标, 包括: 所述第二判断结果为所述文字检测结果包含所述文本行的坐标, 则将与所述最大交并 比对应的文本行坐标作为所述待检测图像的文本中心行坐标; 所述第二判断结果为所述文字检测结果不包含所述文本行的坐标, 则将所述中心区域 的坐标确定为所述待检测图像的文本中心行坐标。 8.一种文本检测装置, 包括: 获取模块, 用于获取待检测图像; 特征提取模块, 用于对所述待检测图像进行 特征提取, 得到第一特 征图; 主体检测模块, 用于根据所述待检测图像和所述第一特 征图得到主体 检测结果; 文字检测模块, 用于对所述第一特征图进行光学字符识别OCR处理, 得到文字检测结 果, 所述文字检测结果包括所述待检测图像中每一文本行的坐标; 中心行确定模块, 用于根据所述主体检测结果和所述文字检测结果, 确定所述待检测 图像的文本中心行坐标。 9.根据权利要求8所述的装置, 其中, 所述主体 检测模块包括: 中心区域坐标确定子模块, 用于根据所述待检测图像, 得到所述待检测图像的中心区 域的坐标; 第二特征图提取子模块, 用于根据所述第一特征图与所述中心区域的坐标, 得到第二 特征图, 所述第二特 征图为所述中心区域的特 征图; 上采样子模块, 用于对所述第二特 征图进行 上采样操作, 得到所述主体 检测结果。 10.根据权利要求9所述的装置, 其中, 所述主体 检测结果 为一个由0和1组成的矩阵; 若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对 应的像素为文字, 则对应点在所述矩阵内的元 素为1; 若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对 应的像素不 为文字, 则对应点在所述矩阵内的元 素为0。 11.根据权利要求9所述的装置, 其中, 所述中心行确定模块包括: 第一判断子模块, 用于根据所述主体检测结果, 得到所述中心区域是否包含文本行的 第一判断结果; 第一文本中心行确定子模块, 用于所述第一判断结果为所述中心区域不包含文本行, 则根据所述文字检测结果和所述中心区域的坐标, 将距离所述中心区域最近的文本行坐标 确定为所述待检测图像的文本中心行坐标; 第二判断子模块, 用于所述第一判断结果为所述中心区域包含文本行, 则根据所述文 字检测结果, 得到所述文字检测结果是否包 含所述文本行的坐标的第二判断结果; 第二文本中心行确定子模块, 用于根据所述第二判断结果, 确定所述待检测图像的文 本中心行坐标。 12.根据权利要求1 1所述的装置, 其中, 所述第一判断子模块包括:权 利 要 求 书 2/3 页 3 CN 114492733 A 3

.PDF文档 专利 一种文本检测方法、装置、设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本检测方法、装置、设备及存储介质 第 1 页 专利 一种文本检测方法、装置、设备及存储介质 第 2 页 专利 一种文本检测方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。