(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210497442.6
(22)申请日 2022.05.09
(71)申请人 南京大学
地址 210093 江苏省南京市 鼓楼区汉口路
22号
(72)发明人 任桐炜 武港山 田鑫
(74)专利代理 机构 南京天翼专利代理有限责任
公司 321 12
专利代理师 奚铭
(51)Int.Cl.
G06V 30/412(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/22(2022.01)G06V 10/77(2022.01)
G06V 10/82(2022.01)
G06F 16/36(2019.01)
(54)发明名称
一种基于几何先验和知识图谱的自然场景
文本识别方法
(57)摘要
一种基于几何先验和知识图谱的自然场景
文本识别方法, 采集领域场景文本图像, 检测 并
裁出文本 行图像, 通过基于几何先验的形变矫正
模型进行特征提取和柱状形变矫正; 对矫正图通
过基于注意力机制的视觉识别模块感知每个字
符得到字符级别的对齐视觉纹理特征; 再通过基
于领域知识 图谱的的全局语义推理模块引入场
景领域知识, 感知上下文信息, 并编码高层语义
特征; 最后综合视觉和语义模块的输出得到文本
识别结果。 本发明可迁移应用于自控仪表、 装备
制造、 数控机床、 汽车制造、 轨道交通等不同面向
领域的自然场景文本识别, 解决传统文本识别技
术在自然场景中因柱面文本形变和缺乏相关词
典而识别准确率不高的问题, 实现对 领域文本更
精准的识别。
权利要求书3页 说明书5页 附图2页
CN 114821609 A
2022.07.29
CN 114821609 A
1.一种基于几何先验和知识图谱的自然场景文本识别方法, 其特征是采集领域场景文
本图像, 所述领域指识别所要应用的场景领域, 文本具有柱 面弯曲, 使用文本检测算法处理
图像得到所有文本行 的区域, 裁出得到文本行图像, 接着将文本行图像输入基于几何先验
的形变矫正模型进 行特征提取和柱状形变矫正, 得到矫正图; 将矫正图送入识别网络中, 通
过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域, 并得到字符级
别的对齐视觉纹理特征, 再通过基于知识图谱的的全局语义推理模块来引入场景领域知
识, 感知上下文信息, 并编 码抽象的高层语义特征; 最后综合视觉和语义模块的输出得到文
本识别结果。
2.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法, 其
特征是使用DB文本检测算法处理图像, 将输入图片经过特征金字塔主干网络, 接着将金字
塔特征上采样到同一尺寸, 然后用特征图同时预测概率图和阈值图, 由特征图和阈值图计
算后得到近似二值图, 对概率图、 阈值图和近似二值图进行监督, 输出文本行区域的检测框
坐标信息, 根据检测框 裁出文本行图像。
3.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法, 其
特征是对获取的文本行图像先通过基于CNN的方法识别文本行方向、 将文本旋转到正确方
向, 再输入形变矫 正模型。
4.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法, 其
特征是基于几何先验的形变矫 正模型进行 特征提取和柱状形变矫 正具体为:
1)通过ResNet对输入图片进行特征提取, 将观察到的柱面文字所发生的形变用柱面正
投影法来表示, 具体是指将圆柱切平面上某个的区域映射到柱状表面的方法, 再将提取出
的特征传入全连接神经网络回归 得柱面投影的三个参数cx, cy和半径r, 其中, (cx,c y)是切
平面文本区域左上角顶点相对于观察点原 点的坐标值, 用来表征观 察方向和透视情况, r是
指圆柱的半径, 用来表征弯曲的程度;
2)根据步骤1)中得到的形变参数进一步计算图片中每一个像素(x,y)的重映射坐标值
(x’,y’), 具体计算公式为:
3)根据步骤2)中得到的重映射公式, 将柱面投影定义成一种可微的操作, 使网络得以
进行反向传播, 将网络输入图像称为S, 将经过基于几何先验的形变矫正器目标图像称为T,
柱面投影变换定 义为ρ(cx,cy,r), 输入图像S上的原坐 标是(xS,yS), 目标图像T上的目标坐 标是
(xT,yT), 形变矫 正过程定义 为:
4)通过双线性插值法将输入图片按照重映射坐标来进行像素值采集, 通过重映射来完
成柱面形变图像的矫 正。
5.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法, 其
特征是通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域, 并得
到字符级别的对齐视觉纹理特征, 具体为使用FPN汇总ResNet50的第3阶段、 第4阶段和第5权 利 要 求 书 1/3 页
2
CN 114821609 A
2阶段的层次结构特征图作为主干网络, 得到图像的2D视觉特征
通过多
头注意力机制, 给定键值对(k,v)和查询q, 键和值均取值于视觉特征uij, 计算查询q和所有
键k之间的相似性来得到注意力值α, 以此为权重计算v的加权和, 以此生 成多个与文本中每
一个字符对齐的2D视 觉特征g, 计算公式为:
其中, et,ij是第t个字符与视觉特征uij的相关性, Ot为第t个字符 的在文本中的顺序, fo
是embedding函数, We、 Wo、 Wv是可训练权重矩阵, αt,ij是第t个字符对视觉特征uij的注意力
值, gt是与第t个字符对齐的视 觉特征值。
6.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法, 其
特征是通过基于知识图谱的全局语义推理模块来引入特定场景领域知识, 感知上下文信
息, 并编码抽象的高层语义特 征, 具体为:
1)构建对应领域的知识图谱本体, 再将知识图谱本体转化为无向图K的形式, 便于知识
图谱与神经网络进行 结合, K的具体定义 为:
na=<la,
其中,
表示结点数, na代表第la个位置的字符类别为ca, 每条边
用来编码两个
结点之间的一种知识;
2)将输入的特征图通过全连接层和softmax层得到初步的类别分布概率P, 并使用交叉
熵损失计算的Lp来使其更专 注于目标字符:
其中, N表示文 本的长度, yt表示第t个字符的真值, pt表示第t个字符的分布概率, p()表
示条件概 率函数;
3)将包含领域知识的无向图K与类别分布概率图P进行矩阵相乘得到高层上下文特征,
与原结果P进 行拼接后得到含有视觉信息和依赖于先验知识的语义信息的增强特征Q, 输入
神经网络拟合模型, 并使用使用交叉熵损失计算的Lq进行监督:
其中, qt表示第t个字符的增强特 征;
4)将3)中得到的结果进行embedding后送入trans former encoder重新编码, 进行不依
赖于先验知识的语义信息学习, 通过堆叠的多层tr ansformer单元隐示建模一阶关系和高
阶语义关系, 最后输出时间步级别的上 下文特征M, 同时加入推理损失Lm, 定义为:权 利 要 求 书 2/3 页
3
CN 114821609 A
3
专利 一种基于几何先验和知识图谱的自然场景文本识别方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:52:52上传分享