说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111639884.1 (22)申请日 2021.12.2 9 (71)申请人 湖北工业大 学 地址 430068 湖北省武汉市洪山区南李路 28号 (72)发明人 李利荣 张开 陈鹏 张云良  周蕾 乐玲 熊炜 丁江 梅冰  (74)专利代理 机构 武汉科皓知识产权代理事务 所(特殊普通 合伙) 42222 代理人 薛玲 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/148(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多层次特征选择的自然场景文本 识别方法 (57)摘要 本发明公开了一种基于多层次特征选择的 自然场景文本识别方法.首先将原始图像使用空 间变换网络进行文本矫正处理, 将矫正后的图像 构建场景文本图像训练集; 其次将构建的场景文 本图像训练集对多层次特征提取残差网络进行 优化训练, 得到优化后的多层次特征提取残差网 络; 接下来通过优化后的多层次特征提取残差网 络来预测场景文本图像训练集中的多个数据信 息及其类别信息, 再使用序列转换的方式分别获 得视觉特征序列、 上下文特征序列和语义特征序 列, 并将三者结合成一个多层次特征序列集。 最 后构建多层次注意力解码器并对其进行优化训 练, 将多层次特征序列集输入到多层次注意力解 码器中进行解码操作, 得到最终预测的识别结 果。 权利要求书6页 说明书13页 附图2页 CN 114359886 A 2022.04.15 CN 114359886 A 1.一种基于多层次特 征选择的自然场景文本识别方法, 其特 征在于, 包括以下步骤: 步骤1: 将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像, 通过 人工标记得到每幅图像中多个文本外接矩形边框, 通过每幅图像构建场景文本图像训练 集, 人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本 图像训练集中每幅图像的标签; 步骤2: 引入多层次特征提取残差网络, 将步骤1所述的场景文本图像训练集中每幅图 像依次进 行网格化处理得到每幅网格化处理后的图像, 且在每幅网格化处理后的图像中引 入锚框, 每个锚框以网格为中心用来辅助预测文本框的坐标, 将每幅网格化处理后的图像 输入至所述多层特征提取残差网络进 行预测, 通过每幅网格化处理后的图像中的多个网格 来预测多个文本外接矩形框的坐标, 将网格化处理后的图像中的不同文本区域来依次连接 对应的网格坐标构成预测的文本外接矩形框, 从而得到场景文本图像训练集中每幅网格化 处理后的图像多个预测文本外接矩形边框, 且每幅网格化处理后的图像中每个网格包含相 应预测的文本类别信息; 将场景文本图像训练集中每幅图像的多个预测文本外接框中的网 格对应的文本类别信息结合起来, 得到每个预测的文本外接矩形框中的文本内容所属的文 字类别, 将得到的场景文本图像训练集中多个预测文本外接矩形边框、 场景文本图像训练 集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别, 及每幅图像生成的Q 个网格及对应的B个锚框, 将根据场景文本图像训练集中每幅图像中多个文本外接矩形边 框、 每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外 接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、 还有同时在预测过程中 产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框, 构建多级 特征提取残差 网络的损失函数, 进一 步通过Adam算法优化训练得到优化后多层特 征提取残差网络; 步骤3: 将场景文本 图像训练集中每幅图像送入到优化后的多层次特征提取残差网络 中, 得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和 场景文本图像训 练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别, 将场景 文本图像训练集中每幅图像中的每个外接矩形框、 每幅图像中每个外接矩形框中预测的文 本内容所属的文字类别通过map ‑sequence转换成场景文本图像训练集中每 幅图像中每个 预测文本外接矩形边框的视觉特征序列集, 场景文本图像训练集中每幅图像中每个预测文 本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外 接矩形边框的视觉特征序列集的所属类别; 将场景文本图像训练集中每幅图像中每个预测 文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中 每幅图像中每个预测文本外接矩形边框的上下文 特征序列集; 将场景文本图像训练集中每 幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文 本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集; 最后 将这三个 特征序列集结合 起来构建一个多层次特 征序列集; 步骤4: 将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操 作, 场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列 集, 多层次特征序列集中的每一个序列都对应所属的文本类别, 再根据每个文本外接矩形 边框中每个网格预测内容所属类别进 行联合计算得到最 终预测的识别结果, 构建多层次注 意力解码器的损失函数, 进一 步通过Adam算法优化训练得到优化后多层次注意力解码器。权 利 要 求 书 1/6 页 2 CN 114359886 A 22.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法, 其特征在于, 步骤1所述场景文本图像训练集中每幅图像中多个文本 外接矩形边框, 具体为: 其中, 表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标, 表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标, 表示图像训 练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标; 表示图像训练集中j幅 图像中第i个文本外接矩形边框右下角坐标, 表示场景文本图像训练集中第j幅图像中 第i个文本外接矩形边框的右下角横坐标, 表示图像训练集中第j幅图像中第i个文本外 接矩形边框 的右下角纵坐标; Ij表示图像训练集中第j 幅图像中文本目标的数量即文本外 接矩形边框的数量; J表示图像的数量; 步骤1所场景文本图像训练集中类别为: classifyj, i 其中, classifyj, i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文 本内容所属的文字类别; 步骤1所述的场景文本图像训练集 为: 其中, dataj(x, y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息, classifyj, i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所 属的文字类别。 3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法, 其特征在于, 步骤2中所述的多层次特 征提取残差网络由多个卷积块依次级联构成; 每个卷积块由BN层、 Relu激活函数层级联构成; 步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络 训练过程中对每 幅图像的参数设定, 利用网格和锚框进行预测文本的框定和分类; 表 示场景文本图像训练集中第 j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角 横坐标, 表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第 m个网格 预测的左上角横坐标, 表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框 中第m个网格预测的左上角纵坐标, 表示场景文本图像训练集中第j幅图像中第i个文权 利 要 求 书 2/6 页 3 CN 114359886 A 3

.PDF文档 专利 一种基于多层次特征选择的自然场景文本识别方法

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多层次特征选择的自然场景文本识别方法 第 1 页 专利 一种基于多层次特征选择的自然场景文本识别方法 第 2 页 专利 一种基于多层次特征选择的自然场景文本识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:54:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。