专利文字识别模型的训练方法、文字识别方法和设备、电子设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633893.X (22)申请日 2021.12.2 9 (71)申请人浙江大华技术股份有限公司地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人孟闯　熊剑平　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师何倚雯 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 30/10(2022.01) (54)发明名称文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 (57)摘要本申请公开了一种文字识别模型的训练方法、文字识别方法和设备、电子设备和介质，该方法包括：获取有标签数据、无标签数据以及有标签数据和无标签数据的反馈联合损失，反馈联合损失基于所述有标签数据、所述无标签数据和损失函数计算得到；对无标签数据进行随机字符扰动增强，得到扰动后的无标签数据；使用有标签数据、反馈联合损失以及扰动后的无标签数据对训练中的文字识别模型进行有监督联合半监督训练，直至损失函数收敛时，得到训练后的文字识别模型。通过上述方式，本申请使用有标签数据、反馈联合损失以及扰动后的无标签数据对训练中的文字识别模型实现有监督联合半监督训练，从而提高了文字识别模型在通用场景下的文字识别能力。权利要求书3页说明书8页附图5页 CN 114462489 A 2022.05.10 CN 114462489 A 1.一种文字识别模型的训练方法，其特征在于，所述方法包括：获取有标签数据、无标签数据以及所述有标签数据和所述无标签数据的反馈联合损失，所述反馈联合损失基于所述有标签数据、所述无标签数据和损失函数计算得到；对所述无标签数据进行字符扰动增强，得到扰动后的无标签数据；使用所述有标签数据、所述反馈联合损失以及所述扰动后的无标签数据对训练中的文字识别模型进行有监督联合半监督训练，直至所述损失函数收敛时，得到训练后的文字识别模型。 2.根据权利要求1所述的方法，其特征在于，所述训练中的文字识别模型包括训练中的学生模型和训练中的教师模型，所述教师模型的网络结构和所述学生模型的网络结构相同；所述使用所述有标签数据、所述反馈联合损失以及所述扰动后的无标签数据对所述训练中的文字识别模型进行有监督联合半监督训练，包括：将所述反馈联合损失、所述有标签数据以及所述扰动后的无标签数据输入所述训练中的学生模型进行有监督联合半监督训练，得到第一预测值；将所述扰动后的无标签数据输入所述训练中的教师模型进行所述半监督训练，得到第二预测值。 3.根据权利要求2所述的方法，其特征在于，所述损失函数收敛时，得到训练后的文字识别模型，包括：提取所述有标签数据的标签；对所述标签、所述第一预测值以及所述第二预测值输入所述损失函数进行损失计算，得到预设损失结果以使所述损失函数收敛，得到所述训练后的文字识别模型。 4.根据权利要求3所述的方法，其特征在于，所述损失函数包括有监督损失函数和无监督损失函数，所述有监督损失函数至少包括联结时间分类损失函数；所述对所述标签、所述第一预测值以及所述第二预测值输入所述损失函数进行损失计算，包括：调用所述有监督损失函数，对所述标签以及所述第一预测值进行拟合，得到联结时间分类损失值以使所述联结时间分类损失函数收敛，得到训练后的学生模型；调用所述无监督损失函数，对所述第二预测值与所述第一预测值进行处理，得到均方误差损失值以使所述无监督损失函数收敛，得到训练后的教师模型，所述第二预测值与所述第一预测值之间的差值小于预设差值，以使所述训练后的学生模型和所述训练后的教师模型组成所述训练后的文字识别模型；其中，所述反馈联合损失是基于所述联结时间分类损失值和所述均方误差损失值的和确定的。 5.根据权利要求2 ‑4任一项所述的方法，其特征在于，所述对无标签数据进行字符扰动增强，包括：获取输入所述学生模型的文本图像作为所述无标签数据；将所述文本图像均分为 N个图像子块，所述 N为大于等于1的正整数；沿着所述文本图像的边界，将所述N个图像子块初始化形成2(N+1)个基准点，其中，每权　利　要　求　书 1/3 页 2 CN 114462489 A 2个基准点设置半径为R的范围圆，以圆的中心为初始原点，其中所述R大于等于 0；对范围圆内的像素点按照高斯分布进行随机扰动，以改变所述无标签数据中的每个字符的形状和/或扭曲度。 6.根据权利要求5所述的方法，其特征在于，在所述对无标签数据进行字符扰动增强之前，所述方法还包括：对所述标签的进行编码预处理时，在重复字符之间插入预设字符，其中，所述预设字符不同于所述标签。 7.根据权利要求1所述的方法，其特征在于，所述学生模型的网络结构包括三分支残差块、池化层和循环神经网络；其中，所述三分支残差块是在3*3卷积神经网络的基础上加入1*1卷积神经网络的残差结构与跨层连接的第一残差结构，所述三分支残差块用于独立表示文字序列特征，所述卷积神经网络用于获取场景文字的图像信息；所述循环神经网络对所述文字序列特征进行顺序信息建模，以学习字符与字符之间的关联关系。 8.根据权利要求7 所述的方法，其特征在于，所述学生模型的最后一层所述卷积神经网络与第一层所述循环神经网络之间设有第二残差结构，所述第二残差结构用于联合所述卷积神经网络提取的所述文字序列特征，强化所述循环神经网络学习文字之间的语义信息。 9.根据权利要求8所述的方法，其特征在于，所述图像信息包括场景文字图像的纹理、空间以及局部细节中的至少一种。 10.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用损失函数梯度下降与优化器更新所述学生模型的参数，其中，所述教师模型的参数是通过所述学生模型的参数进行滑动平均函数更新得到。 11.根据权利要求10所述的方法，其特征在于，所述损失函数梯度下降与利用优化器更新所述学生模型的参数，包括：在所述反向传播过程中，通过所述优化器的算法调整所述学生模型的网络结构中的所述卷积神经网络的权重和偏置项以及所述循环神经网络的权重和偏置项，以更新所述学生模型的参数。 12.一种文字识别方法，其特征在于，所述方法包括：获取文本图像；调用如权利要求1 ‑11任一项所述的训练后的文字识别模型，对所述文本图像进行识别，以得到预测文本序列。 13.一种文字识别设备，其特征在于，所述文字识别设备包括：获取模块，用于获取有标签数据、无标签数据和以及所述有标签数据和所述无标签数据的反馈联合损失，所述反馈联合损失基于所述有标签数据、所述无标签数据和损失函数计算得到；扰动增强模块，用于对无标签数据进行字符扰动增强，得到扰动后的无标签数据；有监督训练模块，用于联合半监督训练模块，利用所述有标签数据、所述反馈联合损失权　利　要　求　书 2/3 页 3 CN 114462489 A 3

专利 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质

专利文字识别模型的训练方法、文字识别方法和设备、电子设备及介质