说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111633893.X (22)申请日 2021.12.2 9 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 孟闯 熊剑平  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/774(2022.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 30/10(2022.01) (54)发明名称 文字识别模 型的训练方法、 文字识别方法和 设备、 电子设备及 介质 (57)摘要 本申请公开了一种文字识别模型的训练方 法、 文字识别方法和设备、 电子设备和介质, 该方 法包括: 获取有标签数据、 无标签数据以及有标 签数据和无标签数据的反馈联合损失, 反馈联合 损失基于 所述有标签数据、 所述无标签数据和损 失函数计算得到; 对无标签数据进行随机字符扰 动增强, 得到扰动后的无标签数据; 使用有标签 数据、 反馈联合损失以及扰动后的无标签数据对 训练中的文字识别模型进行有监督联合半监督 训练, 直至损失函数收敛时, 得到训练后的文字 识别模型。 通过上述方式, 本申请使用有标签数 据、 反馈联合损失以及扰动后的无标签数据对训 练中的文字识别模型实现有监督联合半监督训 练, 从而提高了文字识别模型在通用场景下的文 字识别能力。 权利要求书3页 说明书8页 附图5页 CN 114462489 A 2022.05.10 CN 114462489 A 1.一种文字识别模型的训练方法, 其特 征在于, 所述方法包括: 获取有标签数据、 无标签数据 以及所述有标签数据和所述无标签数据的反馈联合损 失, 所述反馈联合损失基于所述有标签数据、 所述无 标签数据和损失函数计算得到; 对所述无 标签数据进行字符扰动增强, 得到扰动 后的无标签数据; 使用所述有标签数据、 所述反馈联合损失以及所述扰动后的无标签数据对训练中的文 字识别模型进行有监督联合半监督训练, 直至所述损失函数收敛时, 得到训练后的文字识 别模型。 2.根据权利要求1所述的方法, 其特 征在于, 所述训练中的文字识别模型包括训练中的学生模型和训练中的教师模型, 所述教师模 型的网络结构和所述学生模型的网络结构相同; 所述使用所述有标签数据、 所述反馈联合损失以及所述扰动后的无标签数据对所述训 练中的文字识别模型进行有监 督联合半监 督训练, 包括: 将所述反馈联合损失、 所述有标签数据以及所述扰动后的无标签数据输入所述训练中 的学生模型进行有监 督联合半监 督训练, 得到第一预测值; 将所述扰动后的无标签数据输入所述训练中的教师模型进行所述半监督训练, 得到第 二预测值。 3.根据权利要求2所述的方法, 其特 征在于, 所述损失函数收敛时, 得到训练后的文字识别模型, 包括: 提取所述有标签数据的标签; 对所述标签、 所述第一预测值以及所述第二预测值输入所述损 失函数进行损 失计算, 得到预设损失结果以使所述损失函数收敛, 得到所述训练后的文字识别模型。 4.根据权利要求3所述的方法, 其特 征在于, 所述损失函数包括有监督损失函数和无监督损失函数, 所述有监督损失函数至少包括 联结时间分类损失函数; 所述对所述标签、 所述第 一预测值以及所述第 二预测值输入所述损失函数进行损失计 算, 包括: 调用所述有监督损 失函数, 对所述标签以及所述第一预测值进行拟合, 得到联结时间 分类损失值以使所述联 结时间分类损失函数收敛, 得到训练后的学生模型; 调用所述无监督损 失函数, 对所述第二预测值与所述第一预测值进行处理, 得到均方 误差损失值以使所述无监督损失函数收敛, 得到训练后的教师模型, 所述第二预测 值与所 述第一预测值之间的差值小于预设差值, 以使所述训练后的学生模型和所述训练后的教师 模型组成所述训练后的文字识别模型; 其中, 所述反馈联合损失是基于所述联结时间分类损失值和所述均 方误差损失值的和 确定的。 5.根据权利要求2 ‑4任一项所述的方法, 其特 征在于, 所述对无 标签数据进行字符扰动增强, 包括: 获取输入所述学生模型的文本图像作为所述无 标签数据; 将所述文本图像均分为 N个图像子块, 所述 N为大于等于1的正整数; 沿着所述文本图像的边界, 将所述N个图像子块初始化形成2(N+1)个基准点, 其中, 每权 利 要 求 书 1/3 页 2 CN 114462489 A 2个基准点设置半径为R的范围圆, 以圆的中心为初始 原点, 其中所述R大于等于 0; 对范围圆内的像素点按照高斯分布进行随机扰动, 以改变所述无标签数据中的每个字 符的形状和/或扭曲度。 6.根据权利要求5所述的方法, 其特 征在于, 在所述对无 标签数据进行字符扰动增强之前, 所述方法还 包括: 对所述标签的进行编码预处理时, 在重复字符之间插入预设字符, 其中, 所述预设字符 不同于所述标签。 7.根据权利要求1所述的方法, 其特 征在于, 所述学生模型的网络结构包括 三分支残差块、 池化层和循环神经网络; 其中, 所述三分支残差块是在3*3卷积神经网络的基础上加入1*1卷积神经网络的残差 结构与跨层连接的第一残差结构, 所述三分支残差块用于独立表示文字序列特征, 所述卷 积神经网络用于获取场景文字的图像信息; 所述循环神经网络对所述文字序列 特征进行顺序信 息建模, 以学习字符与字符之间的 关联关系。 8.根据权利要求7 所述的方法, 其特 征在于, 所述学生模型的最后一层所述卷积神经网络与第一层所述循环神经网络之间设有第 二残差结构, 所述第二残差结构用于联合所述卷积神经网络提取 的所述文字序列特征, 强 化所述循环神经网络学习文字之间的语义信息 。 9.根据权利要求8所述的方法, 其特 征在于, 所述图像信息包括场景文字图像的纹 理、 空间以及局部细节中的至少一种。 10.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 利用损失函数梯度下降与优化器更新所述学生模型的参数, 其中, 所述教师模型的参 数是通过所述学生模型的参数进行滑动平均函数 更新得到 。 11.根据权利要求10所述的方法, 其特 征在于, 所述损失函数梯度下降与利用优化器更新所述学生模型的参数, 包括: 在所述反 向传播过程中, 通过所述优化器的算法调整所述学生模型的网络结构中的所 述卷积神经网络的权重和偏置项以及所述循环神经网络的权重和偏置项, 以更新所述学生 模型的参数。 12.一种文字识别方法, 其特 征在于, 所述方法包括: 获取文本图像; 调用如权利要求1 ‑11任一项所述的训练后的文字识别模型, 对所述文本图像进行识 别, 以得到预测文本序列。 13.一种文字识别设备, 其特 征在于, 所述文字识别设备包括: 获取模块, 用于获取有标签数据、 无标签数据和以及所述有标签数据和所述无标签数 据的反馈联合损失, 所述反馈联合损失基于所述有标签数据、 所述无标签数据和损失函数 计算得到; 扰动增强模块, 用于对无 标签数据进行字符扰动增强, 得到扰动 后的无标签数据; 有监督训练模块, 用于联合半监督训练模块, 利用所述有标签数据、 所述反馈联合损失权 利 要 求 书 2/3 页 3 CN 114462489 A 3

.PDF文档 专利 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 第 1 页 专利 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 第 2 页 专利 文字识别模型的训练方法、文字识别方法和设备、电子设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:40上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。