专利一种基于自适应离散架构搜索印刷文本去噪网络的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111633410.6 (22)申请日 2021.12.28 (71)申请人天翼电子商务有限公司地址 102200 北京市昌平区未来科技城南区中国电信集团公司院内 (72)发明人李慧　方徐伟　徐小龙　张帅　 (51)Int.Cl. G06V 30/164(2022.01) G06V 30/42(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于自适应离散架构搜索印刷文本去噪网络的方法 (57)摘要本发明公开了一种基于自适应离散架构搜索印刷文本去噪网络的方法，主要的思路在于首先在定义了所有操作的超网中进行搜索，找到较为重要的操作，随后构建出子网(去噪网络)。本发明通过自动化确定去噪网络的网络结构，不仅可以针对特定的印刷数据集构建特定的网络，提高了去噪网络的性能，还在一定程度上减少了人工智能专家在网络构建过程中的参与程度，有助于缩减企业在此方面的人力成本。权利要求书1页说明书4页附图2页 CN 114550178 A 2022.05.27 CN 114550178 A 1.一种基于自适应离散架构搜索印刷文本去噪网络的方法，其特征在于，主要的思路在于首先在定义了所有操作的超网中进行搜索，找到较为重要的操作，随后构建出子网(去噪网络)，具体而言，包括以下步骤： Step1.初定去噪网络的结构：确定去噪网络的结构由N个normalblock1组成；其中保持 normalblock1的输入特征图大小与输出特征图大小相同；其中N 为16； Step2.确定超网的normalblock1数量：由于需要在超网中确定normalblock1的结构；超网的层数要小于去噪网络的层数，即超网中N ormalblock1的个数设置为8； Step3.超网中nor malblock1的设置，在 normalblock1是一个较为浅层的网络，主要由4 个节点组成，为帮助去噪网络确定节点之间的操作，在两个节点之间定义了8个可供选择操作，分别是dil_conv_3x3、 dil_conv_5X5、 max_pool_3x3、 avg_pool_3x3、 skip_connection、 sep_conv_3x3、 sep_co nv_5x5和n one； Step4.引入操作权重因子，在Step4中将对Step3中定义的8个操作分别定义8个操作权重因子 Step5.引入可微离散化函数自动挑选操作；由于在Step4中设置了操作权重因子，权重因子在网络训练过程中自适应的进行调整，但后续在挑选子网时，只需要重要性最大的操作；为更好的得到重要性最大的操作，引入了可微离散化函数自动的挑选操作，可微离散函数如等式1所示，其中k＝50/(total_epoch –epoch)， total_epoch为超网训练过程总的迭代次数， epoch为当前超网训练迭代；随着迭代的进行， k值逐渐增大， Msigmoid的函数曲线将逐渐地逼近二值化地函数曲线，起到离散超网的效果，从而得到子网的网络结构； k值对 Msigmoid函数图像的影响中， k值越大， Msigmoid函数越接近于0和1的二值化图像； Msigmoid函数可以使超网在迭代过程中逐渐挑选出较优的操作，而淘汰掉部分较差的操作；假设8个操作得到的特征图分别为x1， x2…x8,那么得到的特征图输出可计算为： Step6.引入loss函数限制挑选的个数；为保证参数量相对较少，一个节点最终只需要选择排序靠前的前2个操作，由于MSigmoid函数只限制了操作的权重因子趋向于0和1，因此可能存在较多的权重因子等于1，不利于最后的去噪网络选择；因此引入了loss函数来同时对操作的数量进行限制； L oss函数如等式2所示：基于自适应离散架构搜索确定的normalblock1，再依据事先确定的N值，将 normalblock1堆叠N次，即得到最终的去噪网络。权　利　要　求　书 1/1 页 2 CN 114550178 A 2一种基于自适应离散架构搜索印刷文本去噪网络的方法技术领域 [0001]本发明涉及深度学习、计算机视觉、神经网络架构搜索领域，特别涉及一种基于自适应离散架构搜索印刷文本去噪网络的方法。背景技术 [0002]光学字符识别(OCR)是将打字或手写文档转换成数字化格式的过程。数字阅读设备上的经典小说以及旧的医疗记录，均可以通过OCR技术将其数字化，使以前的静态内容可编辑、可搜索、并且更容易共享。但是，依然存在较多纸质文件由于咖啡渍、褪色的晒斑、折角的书页和许多褶皱等噪声，导致其识别的准确率会有较为明显的下降，影响了噪声文件的数字化正确率。为进一步提高噪声文件的识别准确率，可进一步搭建去噪网络，将其把图片中的噪声抹去。如下图1所示，左图为原始的有褶皱的文件，右图为去噪后的无褶皱的文件。将原始的有褶皱的文件直接输入到由DBNet和CRNN搭建的通用识别模型中，得到的识别结果如下图2中的左图所示。从左图识别结果可看出在原本的有褶皱的文本中，存在较多的文本识别错误，比如 “The best way to print these light rectan”被识别为“The best aaht rectar”。但在去除褶皱之后的图片中，这句话就识别正确，相比未去噪之前的识别准确率有了明显的提升。通过这一实验结果可看出去噪网络去除图片中的噪声，将有助于提高噪声图片的识别准确率。 [0003]在去噪网络中，较为常用的网络结构为UNet,UNet中输入数据为去噪前的图片，输出为去噪后的图片。虽然UNet已被广泛的应用到了图像分割领域，但根据 “没有免费的午餐”定理， UNet网络在印刷文字的去噪效果中并不一定是最好的。为构建一个专门针对印刷文字的去噪网络，需要人工智能专家依据经验不断地调整影响去噪性能的超参数、比如确定是采用可分离卷积层还是普通的卷积层、是采用最大池化还是平均池化等操作。这些超参数的调整需要花费专家大量的时间，提高了企业的人力成本。为搭建一个性能较好的去噪网络，并降低人工智能专家在此花费的时间，本专利提出了一种基于自适应离散架构搜索印刷文本去噪网络的方法。发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于自适应离散架构搜索印刷文本去噪网络的方法。 [0005]本发明提供了如下的技术方案： [0006]本发明提供一种基于自适应离散架构搜索印刷文本去噪网络的方法，主要的思路在于首先在定义了所有操作的超网中进行搜索，找到较为重要的操作，随后构建出子网(去噪网络)，具体而言，包括以下步骤： [0007]Step1.初定去噪网络的结构：确定去噪网络的结构由N个norm alblock1组成，如图 3所示；其中保持n ormalblock1的输入特征图大小与输出特征图大小相同；其中N 为16； [0008]Step2.确定超网的normalblock 1数量：由于需要在超网中确定normalblock 1的结说　明　书 1/4 页 3 CN 114550178 A 3

专利 一种基于自适应离散架构搜索印刷文本去噪网络的方法

专利一种基于自适应离散架构搜索印刷文本去噪网络的方法