专利字符检测方法、装置、电子设备及可读介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111645474.8 (22)申请日 2021.12.2 9 (71)申请人南京中科创达软件科技有限公司地址 210012 江苏省南京市雨花台区软件大道109号 4幢601室 (72)发明人赵松　杨怀宇　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师苏培华 (51)Int.Cl. G06V 30/148(2022.01) G06V 10/22(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称字符检测方法、装置、电子设备及可读介质 (57)摘要本发明实施例提供了一种字符检测方法、装置、电子设备及可读介质，方法包括：获取包含待检测的字符的图像，将图像输入特征提取模型，得到图像的图像特征，将图像的图像特征输入字符定位模型，得到字符的定位框和定位框的图像特征，对定位框的图像特征进行重建处理，得到重建的定位框的图像特征，获取重建的定位框的图像特征与定位框的图像特征的重建误差值，所述重建误差值用于确定将字符是否为异常字符。应用本发明实施例，可以确定出垂直、水平、倾斜和弧形等文本中的单个字符的定位框，然后再检测定位框中的单个字符是否为异常字符，从而实现对垂直、水平、倾斜和弧形等文本中的字符进行检测，适用各种文本检测的复杂场景。权利要求书3页说明书16页附图3页 CN 114495108 A 2022.05.13 CN 114495108 A 1.一种字符检测方法，其特征在于，包括：获取包含待检测的字符的图像；将所述图像输入特征提取模型，得到所述图像的图像特征；其中，所述特征提取模块依据标准的图像数据集和包含无印刷异常的字符的正样本图像数据集训练得到；将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征；其中，所述字符定位模型依据定位框标注的正样本图像数据集和所述正样本图像数据集训练得到；对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征；获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符。 2.根据权利要求1所述的方法，其特征在于，所述特征提取模型包括MobileNet网络和特征金字塔网络，所述将所述图像输入特征提取模型，得到所述图像的图像特征，包括：将所述图像输入所述Mobi leNet网络，得到所述图像的多层图像特征；通过所述特征金字塔网络对所述多层图像特征进行特征融合，得到所述图像的图像特征。 3.根据权利要求1所述的方法，其特征在于，所述字符定位模型包括区域生成网络、分类网络和回归预测网络，所述将所述图像的图像特征输入字符定位模型，得到所述字符的定位框和所述定位框的图像特征，包括：将所述图像的图像特征输入所述区域生成网络，得到候选框；通过所述分类网络确定出包含字符的所述候选框；通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，并提取所述定位框的图像特征。 4.根据权利要求3所述的方法，其特征在于，所述通过所述回归预测网络对所述包含字符的所述候选框进行边框回归处理，得到所述字符的定位框，包括：通过所述回归预测网络预测所述候选框中像素点的概率值；其中，所述概率值表征所述像素点为所述字符的概率；基于所述候选框中像素点的概率值，确定出所述字符的定位框。 5.根据权利要求1所述的方法，其特征在于，所述对所述定位框的图像特征进行重建处理，得到重建的定位框的图像特征，包括：对所述定位框的图像特征进行全局池化处理，得到所述定位框的特征向量；对所述定位框的特征向量进行归一化处理，得到归一化的特征向量；通过自编码器对所述归一化的特征向量进行重建，得到重建的特征向量；所述获取所述重建的定位框的图像特征与所述定位框的图像特征的重建误差值，所述重建误差值用于确定所述字符是否为异常字符，包括：计算所述重建的特征向量与所述归一化的特征向量的重建误差值，所述重建误差值用于，在大于第一预设阈值时，确定所述字符为异常字符。 6.根据权利要求1所述的方法，其特征在于，所述标准的图像数据集为ImageNet图像数据集，在所述将所述图像输入特征提取模型之前，还包括：获取在所述 ImageNet图像数据集上预先训练好的特征提取模型；权　利　要　求　书 1/3 页 2 CN 114495108 A 2基于所述正样本图像数据集，调整所述预先训练好的特征提取模型，得到训练完成的特征提取模型。 7.根据权利要求1所述的方法，其特征在于，在所述将所述图像的图像特征输入字符定位模型之前，还包括：将所述定位框标注的正样本图像数据集中的第一定位框标注图像输入所述特征提取模型，得到所述第一定位框标注图像的图像特征；采用所述第一定位框标注图像的图像特征，对待训练的字符定位模型进行训练；当所述待训练的字符定位模型的全局函数损失值小于第二预设阈值时，得到初步训练的字符定位模型，将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；将所述正样本图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的定位框；基于所述字符的定位框对所述正样本图像进行定位框标注，得到第二定位框标注图像；将所述第二定位框标注图像输入所述特征提取模型，得到所述第二定位框标注图像的图像特征；采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，以使所述初步训练的字符定位模型的全局函数损失值小于第三预设阈值，得到训练完成的字符定位模型；其中，所述第三预设阈值小于所述第二预设阈值。 8.根据权利要求7所述的方法，其特征在于，所述采用所述第二定位框标注图像的图像特征，对所述初步训练的字符定位模型进行训练，包括：将所述第二定位框标注图像的图像特征输入所述初步训练的字符定位模型，得到所述字符的预测数量；获取所述字符的实际数量和所述初步训练的字符定位模型的初始全局函数损失值；根据所述字符的预测数量和实际数量，确定置信概率；所述置信概率用于衡量所述特征提取模型预测的准确性；将所述初始全局函数损失值与所述置信概率相乘，得到所述初步训练的字符定位模型的全局函数损失值。 9.根据权利要求5所述的方法，其特征在于，在所述通过自编码器对所述归一化的特征向量进行重建之前，还包括：将所述正样本图像数据集中的正样本图像输入所述特征提取模型，得到所述正样本图像的图像特征；将所述正样本图像的图像特征输入所述字符定位模型，得到定位框的图像特征；对定位框的图像特征进行全局池化处理，得到定位框的特征向量；对特征向量进行归一化处理，得到归一化的特征向量；采用归一化的特征向量，训练待训练的自编码器，得到训练完成的自编码器。 10.一种字符检测装置，其特征在于，所述装置包括：图像获取模块，用于获取包含待检测的字符的图像；第一特征获取模块，用于将所述图像输入特征提取模型，得到所述图像的图像特征；其权　利　要　求　书 2/3 页 3 CN 114495108 A 3

专利 字符检测方法、装置、电子设备及可读介质

专利字符检测方法、装置、电子设备及可读介质