专利用于文本识别的神经网络及其训练方法、文本识别的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210548237.8 (22)申请日 2022.05.18 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人殷晓婷　杜宇宁　李晨霞　杨烨华　赖宝华　毕然　马艳军　胡晓光　于佃海　 (74)专利代理机构北京市汉坤律师事务所 11602 专利代理师姜浩然　吴丽丽 (51)Int.Cl. G06V 30/10(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称用于文本识别的神经网络及其训练方法、文本识别的方法 (57)摘要本公开提供了一种用于文本识别的神经网络及其训练方法、文本识别的方法，涉及人工智能领域，具体涉及计算机视觉和深度学习技术。神经网络包括：第一卷积子网络被配置为基于待识别图像输出第一特征图；局部融合子网络被配置为利用自注意力机制基于第一特征图中的每个像素的特征向量和第一特征图中的多个目标像素的特征向量，确定该像素的局部特征向量以得到第二特征图；第二卷积子网络被配置为基于第二特征图输出第三特征图；全局融合子网络被配置为利用自注意力机制基于第三特征图中的每个像素的特征向量和第三特征图中的每个像素的特征向量，确定该像素的全局特征向量以得到第四特征图；输出子网络被配置为基于第四特征图输出文本识别结果。权利要求书3页说明书12页附图5页 CN 114743196 A 2022.07.12 CN 114743196 A 1.一种用于文本识别的神经网络，包括：第一卷积子网络，被配置为对待识别图像进行卷积处理，以输出第一特征图；局部融合子网络，被配置为针对所述第一特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个目标像素各自的特征向量，确定该像素的局部特征向量，以得到第二特征图，其中，所述多个目标像素包括所述第一特征图中位于该像素的邻域中的多个像素；第二卷积子网络，被配置为对所述第二特征图进行卷积处理，以输出第三特征图；全局融合子网络，被配置为针对所述第三特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第三特征图中的每一个像素各自的特征向量，确定该像素的全局特征向量，以得到第四特征图；以及输出子网络，被配置为基于所述第四特征图，输出文本识别结果。 2.根据权利要求1所述的神经网络，其中，所述第一卷积子网络和所述第二卷积子网络中的至少一者包括深度可分离卷积层。 3.根据权利要求2所述的神经网络，其中，所述第一卷积子网络包括常规卷积层，所述第一卷积子网络和所述第二卷积子网络中的至少一者包括第一深度可分离卷积层，所述第二卷积子网络包括第二深度可分离卷积层，其中，所述第一深度可分离卷积层所使用的卷积核的尺寸小于所述第二深度可分离卷积层所使用的卷积核的尺寸。 4.根据权利要求1 ‑3中任一项所述的神经网络，其中，所述第三特征图的高度为所述待识别图像的高度的1/ 32。 5.根据权利要求1 ‑3中任一项所述的神经网络，还包括以下中的至少一者：第一融合层，被配置为融合所述第一特征图和所述第二特征图以更新所述第二特征图；以及第二融合层，被配置为融合所述第三特征图和所述第四特征图以更新所述第四特征图。 6.根据权利要求1 ‑3中任一项所述的神经网络，其中，针对所述第一特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个相关像素各自的特征向量确定该像素的局部特征向量，以得到第二特征图包括：确定所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征向量的注意力得分；以及基于所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征向量的注意力得分，将所述多个目标像素各自对应的特征向量进行融合，以得到该像素的局部特征向量。 7.一种利用神经网络进行文本识别的方法，所述神经网络包括第一卷积子网络、局部融合子网络、第二卷积子网络、全局融合子网络、以及输出子网络，所述方法包括：将待识别图像输入所述第一卷积子网络，所述第一卷积子网络被配置为对待识别图像进行卷积处理，以输出第一特征图；将所述第一特征图输入所述局部融合子网络，所述局部融合子网络被配置为针对所述第一特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个目标像素各自的特征向量，确定该像素的局部特征向量，以得到第二特征图，权　利　要　求　书 1/3 页 2 CN 114743196 A 2其中，所述多个目标像素包括所述第一特征图中位于该像素的邻域中的多个像素；将所述第二特征图输入所述第二卷积子网络，所述第二卷积子网络被配置为对所述第二特征图进行卷积处理，以输出第三特征图；将所述第三特征图输入所述全局融合子网络，所述全局融合子网络被配置为针对所述第三特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第三特征图中的每一个像素各自的特征向量，确定该像素的全局特征向量，以得到第四特征图；以及将所述第四特征图输入所述输出子网络，所述输出子网络被配置为基于所述第四特征图，输出文本识别结果。 8.根据权利要求7所述的方法，其中，所述第一卷积子网络和所述第二卷积子网络中的至少一者包括深度可分离卷积层。 9.根据权利要求8所述的方法，其中，所述第一卷积子网络包括常规卷积层，所述第一卷积子网络和所述第二卷积子网络中的至少一者包括第一深度可分离卷积层，所述第二卷积子网络包括第二深度可分离卷积层，其中，所述第一深度可分离卷积层所使用的卷积核的尺寸小于所述第二深度可分离卷积层所使用的卷积核的尺寸。 10.根据权利要求7 ‑9中任一项所述的方法，其中，所述第三特征图的高度为所述待识别图像的高度的1/ 32。 11.根据权利要求7 ‑9中任一项所述的方法，还包括以下中的至少一者：融合所述第一特征图和所述第二特征图以更新所述第二特征图；以及融合所述第三特征图和所述第四特征图以更新所述第四特征图。 12.根据权利要求7 ‑9中任一项所述的方法，其中，针对所述第一特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个目标像素各自的特征向量确定该像素的局部特征向量，以得到第二特征图包括：确定所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征向量的注意力得分；以及基于所述多个目标像素中的每一个目标像素对应的特征向量关于与该像素对应的特征向量的注意力得分，将所述多个目标像素各自对应的特征向量进行融合，以得到该像素的局部特征向量。 13.一种神经网络的训练方法，所述神经网络包括第一卷积子网络、局部融合子网络、第二卷积子网络、全局融合子网络、以及输出子网络，所述方法包括：确定样本图像和对应的真实结果；将所述样本图像输入所述第一卷积子网络，所述第一卷积子网络被配置为对所述样本图像进行卷积处理，以输出第一特征图；将所述第一特征图输入所述局部融合子网络，所述局部融合子网络被配置为针对所述第一特征图中的每一个像素，利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个目标像素各自的特征向量，确定该像素的局部特征向量，以得到第二特征图，其中，所述多个目标像素包括所述第一特征图中位于该像素的邻域中的多个像素；将所述第二特征图输入所述第二卷积子网络，所述第二卷积子网络被配置为对所述第二特征图进行卷积处理，以输出第三特征图；权　利　要　求　书 2/3 页 3 CN 114743196 A 3

专利 用于文本识别的神经网络及其训练方法、文本识别的方法

专利用于文本识别的神经网络及其训练方法、文本识别的方法