说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210548237.8 (22)申请日 2022.05.18 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 殷晓婷 杜宇宁 李晨霞 杨烨华  赖宝华 毕然 马艳军 胡晓光  于佃海  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06V 30/10(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 用于文本识别的神经网络及其训练方法、 文 本识别的方法 (57)摘要 本公开提供了一种用于文本识别的神经网 络及其训练方法、 文本识别的方法, 涉及人工智 能领域, 具体涉及计算机视觉和深度学习技术。 神经网络包括: 第一卷积子网络被配置为基于待 识别图像输出第一特征图; 局部融合子网络被配 置为利用自注意力机制基于第一特征图中的每 个像素的特征向量和第一特征图中的多个目标 像素的特征向量, 确定该像素的局部特征向量以 得到第二特征图; 第二卷积子网络被配置为基于 第二特征图输出第三特征图; 全局融合子网络被 配置为利用自注意力机制基于第三特征图中的 每个像素的特征向量和第三特征图中的每个像 素的特征向量, 确定该像素的全局特征向量以得 到第四特征图; 输出子网络被配置为基于第四特 征图输出文本识别结果。 权利要求书3页 说明书12页 附图5页 CN 114743196 A 2022.07.12 CN 114743196 A 1.一种用于文本识别的神经网络, 包括: 第一卷积子网络, 被 配置为对待识别图像进行 卷积处理, 以输出第一特 征图; 局部融合子网络, 被配置为针对所述第一特征图中的每一个像素, 利用自注意力机制 基于该像素对应的特征向量和所述第一特征图中的多个目标像素各自的特征向量, 确定该 像素的局部特征向量, 以得到第二特征图, 其中, 所述多个目标像素包括所述第一特征图中 位于该像素的邻域中的多个 像素; 第二卷积子网络, 被 配置为对所述第二特 征图进行 卷积处理, 以输出第三特 征图; 全局融合子网络, 被配置为针对所述第三特征图中的每一个像素, 利用自注意力机制 基于该像素对应的特征向量和所述第三特征图中的每一个像素各自的特征向量, 确定该像 素的全局特 征向量, 以得到第四特 征图; 以及 输出子网络, 被 配置为基于所述第四特 征图, 输出文本识别结果。 2.根据权利要求1所述的神经网络, 其中, 所述第 一卷积子网络和所述第 二卷积子网络 中的至少一 者包括深度可分离卷积层。 3.根据权利要求2所述的神经网络, 其中, 所述第一卷积子网络包括常规卷积层, 所述 第一卷积子网络和所述第二卷积子网络中的至少一者包括第一深度可分离卷积层, 所述第 二卷积子网络包括第二深度可分离卷积层, 其中, 所述第一深度可分离卷积层所使用的卷 积核的尺寸小于所述第二深度可分离卷积层所使用的卷积核的尺寸。 4.根据权利要求1 ‑3中任一项所述的神经网络, 其中, 所述第三特征图的高度为所述待 识别图像的高度的1/ 32。 5.根据权利要求1 ‑3中任一项所述的神经网络, 还 包括以下中的至少一 者: 第一融合层, 被配置为融合所述第一特征图和所述第二特征图以更新所述第二特征 图; 以及 第二融合层, 被配置为融合所述第三特征图和所述第四特征图以更新所述第四特征 图。 6.根据权利要求1 ‑3中任一项所述的神经网络, 其中, 针对所述第一特征图中的每一个 像素, 利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个相关像素 各自的特 征向量确定该像素的局部特 征向量, 以得到第二特 征图包括: 确定所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征 向量的注意力得分; 以及 基于所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征 向量的注意力得分, 将所述多个目标像素各自对应的特征向量进行融合, 以得到该像素 的 局部特征向量。 7.一种利用神经网络进行文本识别的方法, 所述神经网络包括第一卷积子网络、 局部 融合子网络、 第二卷积子网络、 全局融合子网络、 以及输出子网络, 所述方法包括: 将待识别图像输入所述第 一卷积子网络, 所述第 一卷积子网络被配置为对待识别图像 进行卷积处理, 以输出第一特 征图; 将所述第一特征图输入所述局部 融合子网络, 所述局部融合子网络被配置为针对所述 第一特征图中的每一个像素, 利用自注意力机制基于该像素对应的特征向量和所述第一特 征图中的多个目标像素各自的特征向量, 确定该像素的局部特征向量, 以得到第二特征图,权 利 要 求 书 1/3 页 2 CN 114743196 A 2其中, 所述多个目标像素包括所述第一特 征图中位于该像素的邻域中的多个 像素; 将所述第二特征图输入所述第 二卷积子网络, 所述第 二卷积子网络被配置为对所述第 二特征图进行 卷积处理, 以输出第三特 征图; 将所述第三特征图输入所述全局融合子网络, 所述全局融合子网络被配置为针对所述 第三特征图中的每一个像素, 利用自注意力机制基于该像素对应的特征向量和所述第三特 征图中的每一个像素各自的特征向量, 确定该像素的全局特征向量, 以得到第四特征图; 以 及 将所述第四特征图输入所述输出子网络, 所述输出子网络被配置为基于所述第四特征 图, 输出文本识别结果。 8.根据权利要求7所述的方法, 其中, 所述第 一卷积子网络和所述第 二卷积子网络 中的 至少一者包括深度可分离卷积层。 9.根据权利要求8所述的方法, 其中, 所述第一卷积子网络包括常规卷积层, 所述第一 卷积子网络和所述第二卷积子网络中的至少一者包括第一深度可分离卷积层, 所述第二卷 积子网络包括第二深度可分离卷积层, 其中, 所述第一深度可分离卷积层所使用的卷积核 的尺寸小于所述第二深度可分离卷积层所使用的卷积核的尺寸。 10.根据权利要求7 ‑9中任一项所述的方法, 其中, 所述第三特征图的高度为所述待识 别图像的高度的1/ 32。 11.根据权利要求7 ‑9中任一项所述的方法, 还 包括以下中的至少一 者: 融合所述第一特 征图和所述第二特 征图以更新所述第二特 征图; 以及 融合所述第三特 征图和所述第四特 征图以更新所述第四特 征图。 12.根据权利要求7 ‑9中任一项所述的方法, 其中, 针对所述第一特征图中的每一个像 素, 利用自注意力机制基于该像素对应的特征向量和所述第一特征图中的多个目标像素各 自的特征向量确定该像素的局部特 征向量, 以得到第二特 征图包括: 确定所述多个目标像素中的每一个目标像素对应的特征向量关于该像素对应的特征 向量的注意力得分; 以及 基于所述多个目标像素中的每一个目标像素对应的特征向量关于与该像素对应的特 征向量的注意力得分, 将所述多个目标像素各自对应的特征向量进行融合, 以得到该像素 的局部特 征向量。 13.一种神经网络的训练方法, 所述神经网络包括第一卷积子网络、 局部融合子网络、 第二卷积子网络、 全局融合子网络、 以及输出子网络, 所述方法包括: 确定样本图像和对应的真实结果; 将所述样本图像输入所述第 一卷积子网络, 所述第 一卷积子网络被配置为对所述样本 图像进行 卷积处理, 以输出第一特 征图; 将所述第一特征图输入所述局部 融合子网络, 所述局部融合子网络被配置为针对所述 第一特征图中的每一个像素, 利用自注意力机制基于该像素对应的特征向量和所述第一特 征图中的多个目标像素各自的特征向量, 确定该像素的局部特征向量, 以得到第二特征图, 其中, 所述多个目标像素包括所述第一特 征图中位于该像素的邻域中的多个 像素; 将所述第二特征图输入所述第 二卷积子网络, 所述第 二卷积子网络被配置为对所述第 二特征图进行 卷积处理, 以输出第三特 征图;权 利 要 求 书 2/3 页 3 CN 114743196 A 3

.PDF文档 专利 用于文本识别的神经网络及其训练方法、文本识别的方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于文本识别的神经网络及其训练方法、文本识别的方法 第 1 页 专利 用于文本识别的神经网络及其训练方法、文本识别的方法 第 2 页 专利 用于文本识别的神经网络及其训练方法、文本识别的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:50:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。