专利一种基于几何先验和知识图谱的自然场景文本识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210497442.6 (22)申请日 2022.05.09 (71)申请人南京大学地址 210093 江苏省南京市鼓楼区汉口路 22号 (72)发明人任桐炜　武港山　田鑫　 (74)专利代理机构南京天翼专利代理有限责任公司 321 12 专利代理师奚铭 (51)Int.Cl. G06V 30/412(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/22(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) G06F 16/36(2019.01) (54)发明名称一种基于几何先验和知识图谱的自然场景文本识别方法 (57)摘要一种基于几何先验和知识图谱的自然场景文本识别方法，采集领域场景文本图像，检测并裁出文本行图像，通过基于几何先验的形变矫正模型进行特征提取和柱状形变矫正；对矫正图通过基于注意力机制的视觉识别模块感知每个字符得到字符级别的对齐视觉纹理特征；再通过基于领域知识图谱的的全局语义推理模块引入场景领域知识，感知上下文信息，并编码高层语义特征；最后综合视觉和语义模块的输出得到文本识别结果。本发明可迁移应用于自控仪表、装备制造、数控机床、汽车制造、轨道交通等不同面向领域的自然场景文本识别，解决传统文本识别技术在自然场景中因柱面文本形变和缺乏相关词典而识别准确率不高的问题，实现对领域文本更精准的识别。权利要求书3页说明书5页附图2页 CN 114821609 A 2022.07.29 CN 114821609 A 1.一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是采集领域场景文本图像，所述领域指识别所要应用的场景领域，文本具有柱面弯曲，使用文本检测算法处理图像得到所有文本行的区域，裁出得到文本行图像，接着将文本行图像输入基于几何先验的形变矫正模型进行特征提取和柱状形变矫正，得到矫正图；将矫正图送入识别网络中，通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域，并得到字符级别的对齐视觉纹理特征，再通过基于知识图谱的的全局语义推理模块来引入场景领域知识，感知上下文信息，并编码抽象的高层语义特征；最后综合视觉和语义模块的输出得到文本识别结果。 2.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是使用DB文本检测算法处理图像，将输入图片经过特征金字塔主干网络，接着将金字塔特征上采样到同一尺寸，然后用特征图同时预测概率图和阈值图，由特征图和阈值图计算后得到近似二值图，对概率图、阈值图和近似二值图进行监督，输出文本行区域的检测框坐标信息，根据检测框裁出文本行图像。 3.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是对获取的文本行图像先通过基于CNN的方法识别文本行方向、将文本旋转到正确方向，再输入形变矫正模型。 4.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是基于几何先验的形变矫正模型进行特征提取和柱状形变矫正具体为： 1)通过ResNet对输入图片进行特征提取，将观察到的柱面文字所发生的形变用柱面正投影法来表示，具体是指将圆柱切平面上某个的区域映射到柱状表面的方法，再将提取出的特征传入全连接神经网络回归得柱面投影的三个参数cx， cy和半径r，其中， (cx,c y)是切平面文本区域左上角顶点相对于观察点原点的坐标值，用来表征观察方向和透视情况， r是指圆柱的半径，用来表征弯曲的程度； 2)根据步骤1)中得到的形变参数进一步计算图片中每一个像素(x,y)的重映射坐标值 (x’,y’)，具体计算公式为： 3)根据步骤2)中得到的重映射公式，将柱面投影定义成一种可微的操作，使网络得以进行反向传播，将网络输入图像称为S，将经过基于几何先验的形变矫正器目标图像称为T，柱面投影变换定义为ρ(cx,cy,r)，输入图像S上的原坐标是(xS,yS)，目标图像T上的目标坐标是 (xT,yT)，形变矫正过程定义为： 4)通过双线性插值法将输入图片按照重映射坐标来进行像素值采集，通过重映射来完成柱面形变图像的矫正。 5.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是通过基于注意力机制的视觉识别模块感知每个字符需要关注的关键空间区域，并得到字符级别的对齐视觉纹理特征，具体为使用FPN汇总ResNet50的第3阶段、第4阶段和第5权　利　要　求　书 1/3 页 2 CN 114821609 A 2阶段的层次结构特征图作为主干网络，得到图像的2D视觉特征通过多头注意力机制，给定键值对(k,v)和查询q，键和值均取值于视觉特征uij，计算查询q和所有键k之间的相似性来得到注意力值α，以此为权重计算v的加权和，以此生成多个与文本中每一个字符对齐的2D视觉特征g，计算公式为：其中， et,ij是第t个字符与视觉特征uij的相关性， Ot为第t个字符的在文本中的顺序， fo 是embedding函数， We、 Wo、 Wv是可训练权重矩阵， αt,ij是第t个字符对视觉特征uij的注意力值， gt是与第t个字符对齐的视觉特征值。 6.根据权利要求1所述的一种基于几何先验和知识图谱的自然场景文本识别方法，其特征是通过基于知识图谱的全局语义推理模块来引入特定场景领域知识，感知上下文信息，并编码抽象的高层语义特征，具体为： 1)构建对应领域的知识图谱本体，再将知识图谱本体转化为无向图K的形式，便于知识图谱与神经网络进行结合， K的具体定义为： na＝＜la, 其中，表示结点数， na代表第la个位置的字符类别为ca，每条边用来编码两个结点之间的一种知识； 2)将输入的特征图通过全连接层和softmax层得到初步的类别分布概率P，并使用交叉熵损失计算的Lp来使其更专注于目标字符：其中， N表示文本的长度， yt表示第t个字符的真值， pt表示第t个字符的分布概率， p()表示条件概率函数； 3)将包含领域知识的无向图K与类别分布概率图P进行矩阵相乘得到高层上下文特征，与原结果P进行拼接后得到含有视觉信息和依赖于先验知识的语义信息的增强特征Q，输入神经网络拟合模型，并使用使用交叉熵损失计算的Lq进行监督：其中， qt表示第t个字符的增强特征； 4)将3)中得到的结果进行embedding后送入trans former encoder重新编码，进行不依赖于先验知识的语义信息学习，通过堆叠的多层tr ansformer单元隐示建模一阶关系和高阶语义关系，最后输出时间步级别的上下文特征M，同时加入推理损失Lm，定义为:权　利　要　求　书 2/3 页 3 CN 114821609 A 3

专利 一种基于几何先验和知识图谱的自然场景文本识别方法

专利一种基于几何先验和知识图谱的自然场景文本识别方法