专利一种文本检测方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111647444.0 (22)申请日 2021.12.2 9 (71)申请人北京百度网讯科技有限公司地址 100089 北京市海淀区上地十街10号百度大厦2层 (72)发明人乔美娜　刘珊珊　吴亮　章成全　姚锟　 (74)专利代理机构北京乐知新创知识产权代理事务所(普通合伙) 11734 专利代理师王曌寅 (51)Int.Cl. G06N 3/04(2006.01) G06V 30/10(2022.01) G06V 30/18(2022.01) G06N 3/08(2006.01)G06V 30/40(2022.01) (54)发明名称一种文本检测方法、装置、设备及存储介质 (57)摘要本公开提供了一种文本检测方法、装置、设备及存储介质，涉及计算机技术领域，尤其涉及光学字符识别(OCR， Optical Character Recognition)领域。具体实现方案为：获取待检测图像；对所述待检测图像进行特征提取，得到第一特征图；根据所述待检测图像和所述第一特征图得到主体检测结果；对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。本公开通过主体检测与文字检测相结合的检测方法，可以提高文本中心行的检测精度。权利要求书3页说明书11页附图8页 CN 114492733 A 2022.05.13 CN 114492733 A 1.一种文本检测方法，包括：获取待检测图像；对所述待检测图像进行特征提取，得到第一特征图；根据所述待检测图像和所述第一特征图得到主体检测结果；对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。 2.根据权利要求1所述的方法，其中，所述根据待检测图像和所述第一特征图得到主体检测结果，包括：根据所述待检测图像，得到所述待检测图像的中心区域的坐标；根据所述第一特征图与所述中心区域的坐标，得到第二特征图，所述第二特征图为所述中心区域的特征图；对所述第二特征图进行上采样操作，得到所述主体检测结果。 3.根据权利要求2所述的方法，其中，所述主体检测结果为一个由0和1组成的矩阵；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素为文字，则对应点在所述矩阵内的元素为1；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素不为文字，则对应点在所述矩阵内的元素为0。 4.根据权利要求2所述的方法，其中，所述根据主体检测结果和文字检测结果，得到所述待检测图像的文本中心行坐标，包括：根据所述主体检测结果，得到所述中心区域是否包含文本行的第一判断结果；所述第一判断结果为所述中心区域不包含文本行，则根据所述文字检测结果和所述中心区域的坐标，将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心行坐标；所述第一判断结果为所述中心区域包含文本行，则根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果；根据所述第二判断结果，确定所述待检测图像的文本中心行坐标。 5.根据权利要求4所述的方法，其中，所述根据主体检测结果，得到所述中心区域是否包含文本行的第一判断结果，包括：根据所述中心区域的坐标，计算所述中心区域的面积；根据所述主体检测结果，计算所述中心区域中最大连通域的面积；所述最大连通域的面积与所述中心区域的面积的比值大于第一阈值，则所述中心区域包含文本行；所述最大连通域的面积与所述中心区域的面积的比值不大于第一阈值，则所述中心区域不包含文本行。 6.根据权利要求4所述的方法，其中，根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果，包括：根据所述文字检测结果和所述中心区域的坐标，计算所述待检测图像中每一文本行与权　利　要　求　书 1/3 页 2 CN 114492733 A 2所述中心区域的交并比，并选取最大交并比；所述最大交并比大于第二阈值，则所述文字检测结果包含所述文本行的坐标；所述最大交并比不大于第二阈值，则所述文字检测结果不包含所述文本行的坐标。 7.根据权利要求6所述的方法，其中，所述根据第二判断结果，确定所述待检测图像的文本中心行坐标，包括：所述第二判断结果为所述文字检测结果包含所述文本行的坐标，则将与所述最大交并比对应的文本行坐标作为所述待检测图像的文本中心行坐标；所述第二判断结果为所述文字检测结果不包含所述文本行的坐标，则将所述中心区域的坐标确定为所述待检测图像的文本中心行坐标。 8.一种文本检测装置，包括：获取模块，用于获取待检测图像；特征提取模块，用于对所述待检测图像进行特征提取，得到第一特征图；主体检测模块，用于根据所述待检测图像和所述第一特征图得到主体检测结果；文字检测模块，用于对所述第一特征图进行光学字符识别OCR处理，得到文字检测结果，所述文字检测结果包括所述待检测图像中每一文本行的坐标；中心行确定模块，用于根据所述主体检测结果和所述文字检测结果，确定所述待检测图像的文本中心行坐标。 9.根据权利要求8所述的装置，其中，所述主体检测模块包括：中心区域坐标确定子模块，用于根据所述待检测图像，得到所述待检测图像的中心区域的坐标；第二特征图提取子模块，用于根据所述第一特征图与所述中心区域的坐标，得到第二特征图，所述第二特征图为所述中心区域的特征图；上采样子模块，用于对所述第二特征图进行上采样操作，得到所述主体检测结果。 10.根据权利要求9所述的装置，其中，所述主体检测结果为一个由0和1组成的矩阵；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素为文字，则对应点在所述矩阵内的元素为1；若经过所述上采样操作后的第二特征图中任一点的坐标映射到待检测图像的坐标对应的像素不为文字，则对应点在所述矩阵内的元素为0。 11.根据权利要求9所述的装置，其中，所述中心行确定模块包括：第一判断子模块，用于根据所述主体检测结果，得到所述中心区域是否包含文本行的第一判断结果；第一文本中心行确定子模块，用于所述第一判断结果为所述中心区域不包含文本行，则根据所述文字检测结果和所述中心区域的坐标，将距离所述中心区域最近的文本行坐标确定为所述待检测图像的文本中心行坐标；第二判断子模块，用于所述第一判断结果为所述中心区域包含文本行，则根据所述文字检测结果，得到所述文字检测结果是否包含所述文本行的坐标的第二判断结果；第二文本中心行确定子模块，用于根据所述第二判断结果，确定所述待检测图像的文本中心行坐标。 12.根据权利要求1 1所述的装置，其中，所述第一判断子模块包括：权　利　要　求　书 2/3 页 3 CN 114492733 A 3

专利 一种文本检测方法、装置、设备及存储介质

专利一种文本检测方法、装置、设备及存储介质