专利一种基于多层次特征选择的自然场景文本识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111639884.1 (22)申请日 2021.12.2 9 (71)申请人湖北工业大学地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人李利荣　张开　陈鹏　张云良　周蕾　乐玲　熊炜　丁江　梅冰　 (74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人薛玲 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/148(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多层次特征选择的自然场景文本识别方法 (57)摘要本发明公开了一种基于多层次特征选择的自然场景文本识别方法.首先将原始图像使用空间变换网络进行文本矫正处理，将矫正后的图像构建场景文本图像训练集；其次将构建的场景文本图像训练集对多层次特征提取残差网络进行优化训练，得到优化后的多层次特征提取残差网络；接下来通过优化后的多层次特征提取残差网络来预测场景文本图像训练集中的多个数据信息及其类别信息，再使用序列转换的方式分别获得视觉特征序列、上下文特征序列和语义特征序列，并将三者结合成一个多层次特征序列集。最后构建多层次注意力解码器并对其进行优化训练，将多层次特征序列集输入到多层次注意力解码器中进行解码操作，得到最终预测的识别结果。权利要求书6页说明书13页附图2页 CN 114359886 A 2022.04.15 CN 114359886 A 1.一种基于多层次特征选择的自然场景文本识别方法，其特征在于，包括以下步骤：步骤1：将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像，通过人工标记得到每幅图像中多个文本外接矩形边框，通过每幅图像构建场景文本图像训练集，人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签；步骤2：引入多层次特征提取残差网络，将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像，且在每幅网格化处理后的图像中引入锚框，每个锚框以网格为中心用来辅助预测文本框的坐标，将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测，通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标，将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框，从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框，且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息；将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来，得到每个预测的文本外接矩形框中的文本内容所属的文字类别，将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别，及每幅图像生成的Q 个网格及对应的B个锚框，将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框，构建多级特征提取残差网络的损失函数，进一步通过Adam算法优化训练得到优化后多层特征提取残差网络；步骤3：将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中，得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别，将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map ‑sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集，场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集；将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集；最后将这三个特征序列集结合起来构建一个多层次特征序列集；步骤4：将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作，场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集，多层次特征序列集中的每一个序列都对应所属的文本类别，再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果，构建多层次注意力解码器的损失函数，进一步通过Adam算法优化训练得到优化后多层次注意力解码器。权　利　要　求　书 1/6 页 2 CN 114359886 A 22.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法，其特征在于，步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框，具体为：其中，表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标，表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标，表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标；表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标，表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标，表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标； Ij表示图像训练集中第j 幅图像中文本目标的数量即文本外接矩形边框的数量； J表示图像的数量；步骤1所场景文本图像训练集中类别为： classifyj， i 其中， classifyj， i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别；步骤1所述的场景文本图像训练集为：其中， dataj(x， y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息， classifyj， i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。 3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法，其特征在于，步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成；每个卷积块由BN层、 Relu激活函数层级联构成；步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定，利用网格和锚框进行预测文本的框定和分类；表示场景文本图像训练集中第 j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标，表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第 m个网格预测的左上角横坐标，表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标，表示场景文本图像训练集中第j幅图像中第i个文权　利　要　求　书 2/6 页 3 CN 114359886 A 3

专利 一种基于多层次特征选择的自然场景文本识别方法

专利一种基于多层次特征选择的自然场景文本识别方法