说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111645474.8 (22)申请日 2021.12.2 9 (71)申请人 南京中科创达软件科技有限公司 地址 210012 江苏省南京市雨 花台区软件 大道109号 4幢601室 (72)发明人 赵松 杨怀宇  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 苏培华 (51)Int.Cl. G06V 30/148(2022.01) G06V 10/22(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 字符检测方法、 装置、 电子设备及可读介质 (57)摘要 本发明实施例提供了一种字 符检测方法、 装 置、 电子设备及可读介质, 方法包括: 获取包含待 检测的字符的图像, 将图像输入特征提取模型, 得到图像的图像特征, 将图像的图像特征输入字 符定位模型, 得到字符的定位框和定位框的图像 特征, 对定位框的图像特征进行重建处理, 得到 重建的定位框的图像特征, 获取重建的定位框的 图像特征与定位框的图像特征的重建误差值, 所 述重建误差值用于确定将字 符是否为异常字符。 应用本发 明实施例, 可以确定 出垂直、 水平、 倾斜 和弧形等文本中的单个字 符的定位框, 然后再检 测定位框中的单个字符是否为异常字符, 从而实 现对垂直、 水平、 倾斜和弧形等文本中的字符进 行检测, 适用各种文本 检测的复杂场景。 权利要求书3页 说明书16页 附图3页 CN 114495108 A 2022.05.13 CN 114495108 A 1.一种字符检测方法, 其特 征在于, 包括: 获取包含待检测的字符的图像; 将所述图像输入特征提取模型, 得到所述图像的图像特征; 其中, 所述特征提取模块依 据标准的图像数据集和包 含无印刷异常的字符的正样本图像数据集训练得到; 将所述图像的图像特征输入字符定位模型, 得到所述字符的定位框和所述定位框的图 像特征; 其中, 所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像 数据集训练得到; 对所述定位框的图像特 征进行重建处 理, 得到重建的定位框的图像特 征; 获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值, 所述重建 误差值用于确定所述字符是否为异常字符。 2.根据权利要求1所述的方法, 其特征在于, 所述特征提取模型包括MobileNet网络和 特征金字塔网络, 所述将所述图像输入特 征提取模型, 得到所述图像的图像特 征, 包括: 将所述图像输入所述Mobi leNet网络, 得到所述图像的多层图像特 征; 通过所述特征金字塔网络对所述多层图像特征进行特征融合, 得到所述图像的图像特 征。 3.根据权利要求1所述的方法, 其特征在于, 所述字符定位模型包括区域生成网络、 分 类网络和回归预测网络, 所述将所述图像的图像特征输入字符定位模型, 得到所述字符的 定位框和所述定位框的图像特 征, 包括: 将所述图像的图像特 征输入所述区域 生成网络, 得到候选 框; 通过所述分类网络确定出包 含字符的所述 候选框; 通过所述 回归预测网络对所述包含字符的所述候选框进行边框回归处理, 得到所述字 符的定位框, 并提取 所述定位框的图像特 征。 4.根据权利要求3所述的方法, 其特征在于, 所述通过所述 回归预测网络对所述包含字 符的所述 候选框进行边框回归处 理, 得到所述字符的定位框, 包括: 通过所述回归预测网络预测所述候选框中像素点的概率值; 其中, 所述概率值表征所 述像素点 为所述字符的概 率; 基于所述 候选框中像素点的概 率值, 确定出 所述字符的定位框 。 5.根据权利要求1所述的方法, 其特征在于, 所述对所述定位框的图像特征进行重建处 理, 得到重建的定位框的图像特 征, 包括: 对所述定位框的图像特 征进行全局池化处 理, 得到所述定位框的特 征向量; 对所述定位框的特 征向量进行归一 化处理, 得到归一 化的特征向量; 通过自编码器对所述归一 化的特征向量进行重建, 得到 重建的特 征向量; 所述获取所述重建的定位框的图像特征与 所述定位框的图像特征的重建误差值, 所述 重建误差值用于确定所述字符是否为异常字符, 包括: 计算所述重建的特征向量与 所述归一化的特征向量的重建误差值, 所述重建误差值用 于, 在大于第一预设阈值时, 确定所述字符为异常字符。 6.根据权利 要求1所述的方法, 其特征在于, 所述标准的图像数据集为ImageNet图像数 据集, 在所述将所述图像输入特 征提取模型之前, 还 包括: 获取在所述 ImageNet图像数据集上 预先训练好的特 征提取模型;权 利 要 求 书 1/3 页 2 CN 114495108 A 2基于所述正样本 图像数据集, 调整所述预先训练好的特征提取模型, 得到训练完成的 特征提取模型。 7.根据权利要求1所述的方法, 其特征在于, 在所述将所述图像的图像特征输入字符定 位模型之前, 还 包括: 将所述定位框标注的正样本图像数据集中的第一定位框标注图像输入所述特征提取 模型, 得到所述第一定位框标注图像的图像特 征; 采用所述第一定位框标注图像的图像特 征, 对待训练的字符定位模型进行训练; 当所述待训练 的字符定位模型的全局函数损失值小于第 二预设阈值 时, 得到初步训练 的字符定位模型, 将所述正样本图像数据集中的正样本图像输入所述特征提取模型, 得到 所述正样本图像的图像特 征; 将所述正样本图像的图像特征输入所述初步训练 的字符定位模型, 得到所述字符的定 位框; 基于所述字符的定位框对所述正样本图像进行定位框标注, 得到第二定位框标注图 像; 将所述第二定位框标注图像输入所述特征提取模型, 得到所述第 二定位框标注图像的 图像特征; 采用所述第二定位框标注图像的图像特征, 对所述初步训练的字符定位模型进行训 练, 以使所述初步训练的字符定位模型 的全局函数损失值小于第三预设阈值, 得到训练完 成的字符定位模型; 其中, 所述第三预设阈值小于所述第二预设阈值。 8.根据权利要求7所述的方法, 其特征在于, 所述采用所述第 二定位框标注图像的图像 特征, 对所述初步训练的字符定位模型进行训练, 包括: 将所述第二定位框标注图像的图像特征输入所述初步训练 的字符定位模型, 得到所述 字符的预测数量; 获取所述字符的实际数量和所述初步训练的字符定位模型的初始全局函数损失值; 根据所述字符的预测数量和实 际数量, 确定置信概率; 所述置信概率用于衡量所述特 征提取模型 预测的准确性; 将所述初始全局函数损失值与所述置信概率相乘, 得到所述初步训练 的字符定位模型 的全局函数损失值。 9.根据权利要求5所述的方法, 其特征在于, 在所述通过自编码器对所述归一化的特征 向量进行重建之前, 还 包括: 将所述正样本图像数据集中的正样本图像输入所述特征提取模型, 得到所述正样本图 像的图像特 征; 将所述正样本图像的图像特 征输入所述字符定位模型, 得到 定位框的图像特 征; 对定位框的图像特 征进行全局池化处 理, 得到定位框的特 征向量; 对特征向量进行归一 化处理, 得到归一 化的特征向量; 采用归一 化的特征向量, 训练待训练的自编码器, 得到训练完成的自编码器。 10.一种字符检测装置, 其特 征在于, 所述装置包括: 图像获取模块, 用于获取包 含待检测的字符的图像; 第一特征获取模块, 用于将所述图像输入特征提取模型, 得到所述图像的图像特征; 其权 利 要 求 书 2/3 页 3 CN 114495108 A 3

.PDF文档 专利 字符检测方法、装置、电子设备及可读介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 字符检测方法、装置、电子设备及可读介质 第 1 页 专利 字符检测方法、装置、电子设备及可读介质 第 2 页 专利 字符检测方法、装置、电子设备及可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。