说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111633410.6 (22)申请日 2021.12.28 (71)申请人 天翼电子商务有限公司 地址 102200 北京市昌平区未来科技城南 区中国电信集团公司院内 (72)发明人 李慧 方徐伟 徐小龙 张帅  (51)Int.Cl. G06V 30/164(2022.01) G06V 30/42(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于自适应离散架构搜索印刷文本去 噪网络的方法 (57)摘要 本发明公开了一种基于自适应离散架构搜 索印刷文本去噪网络的方法, 主要的思路在于首 先在定义了所有操作的超网中进行搜索, 找到较 为重要的操作, 随后构建出子网(去噪网络)。 本 发明通过自动化确定去噪网络的网络结构, 不仅 可以针对特定的印刷数据集构建特定的网络, 提 高了去噪网络的性能, 还在一定程度上减少了人 工智能专家在网络构建过程中的参与程度, 有助 于缩减企业在此 方面的人力成本 。 权利要求书1页 说明书4页 附图2页 CN 114550178 A 2022.05.27 CN 114550178 A 1.一种基于自适应离散架构搜索印刷文本去噪网络的方法, 其特征在于, 主要的思路 在于首先在定义了所有操作的超网中进 行搜索, 找到较为重要的操作, 随后构建出子网(去 噪网络), 具体而言, 包括以下步骤: Step1.初定去噪网络的结构: 确定去噪网络的结构由N个normalblock1组成; 其中保持 normalblock1的输入特 征图大小与输出 特征图大小相同; 其中N 为16; Step2.确定超网的normalblock1数量: 由于需要在超网中确定normalblock1的结构; 超网的层数要 小于去噪网络的层数, 即超网中N ormalblock1的个数设置为8; Step3.超网中nor malblock1的设置, 在 normalblock1是一个较为浅层的网络, 主要由4 个节点组成, 为帮助去噪网络确定节 点之间的操作, 在两个节点之间定义了8个可供选择操 作, 分别是dil_conv_3x3、 dil_conv_5X5、 max_pool_3x3、 avg_pool_3x3、 skip_connection、 sep_conv_3x3、 sep_co nv_5x5和n one; Step4.引入操作权重因子, 在Step4中将对Step3中定义的8个操作分别定义8个操作权 重因子 Step5.引入可微离散化函数自动挑选操作; 由于在Step4中设置了操作权重因子, 权重 因子在网络训练过程中自适应的进行调整, 但后续在挑选子网时, 只需要重要性最大 的操 作; 为更好的得到重要性最大的操作, 引入了可微离散化函数自动的挑选操作, 可微离散函 数如等式1所示, 其中k=50/(total_epoch –epoch), total_epoch为超网训练过程总的迭代 次数, epoch为当前超网训练迭代; 随着迭代的进行, k值逐渐增大, Msigmoid的函数曲线将 逐渐地逼近二值化地函数曲线, 起到离散超网的效果, 从而得到子网的网络结构; k值对 Msigmoid函数图像的影响中, k值越大, Msigmoid函数越接近于0和1的二值化图像; Msigmoid函数可以使超网在迭代过程中逐渐挑选出较优的操作, 而淘汰掉部分较差的操 作; 假设8个操作得到的特 征图分别为x1, x2…x8,那么得到的特 征图输出 可计算为: Step6.引入loss函数限制挑选的个数; 为保证参数量相对较少, 一个节点最终只需要 选择排序靠前的前2个操作, 由于MSigmoid函数只限制了操作的权重因子趋向于0和1, 因此 可能存在较多的权重因子等于1, 不利于最后的去噪网络选择; 因此引入了loss函数来同时 对操作的数量进行限制; L oss函数如等式2所示: 基于自适应离散架构搜索确定的normalblock1, 再依据事先确定的N值, 将 normalblock1堆叠N次, 即得到最终的去噪网络 。权 利 要 求 书 1/1 页 2 CN 114550178 A 2一种基于自适应离散架构搜索印刷文本去噪网 络的方法 技术领域 [0001]本发明涉及深度学习、 计算机视觉、 神经网络架构搜索领域, 特别涉及一种基于自 适应离散架构搜索印刷文本去噪网络的方法。 背景技术 [0002]光学字符识别(OCR)是将打字或手写文档转换成数字化格式的过程。 数字阅读设 备上的经典小说以及旧的医疗记录, 均可以通过OCR技术将其数字化, 使以前的静态内容可 编辑、 可搜索、 并且更容易共享。 但是, 依然存在较多纸质文件由于咖啡渍、 褪色的晒斑、 折 角的书页和许多褶皱等噪声, 导致其识别的准确 率会有较为明显的下降, 影响了噪声文件 的数字化正确率。 为进一步提高噪声文件的识别准确率, 可进一步搭建去噪网络, 将其把图 片中的噪声抹去。 如下图1所示, 左图为原始的有褶皱的文件, 右图为去噪后的无褶皱的文 件。 将原始的有褶皱的文件直接输入到由DBNet和CRNN搭建的通用识别模 型中, 得到的识别 结果如下图2中的左图所示。 从左图识别结果可看出在原本的有褶皱的文本中, 存在较多的 文本识别错误, 比如 “The best way to print these light rectan”被识别为“The best  aaht rectar”。 但在去除褶皱之后的图片中, 这句话就识别正确, 相比未去噪之前的识别准 确率有了明显的提升。 通过这一实验结果可看出去 噪网络去除图片 中的噪声, 将有助于提 高噪声图片的识别准确率。 [0003]在去噪网络中, 较为常用的网络结构为UNet,UNet中输入数据为去噪前的图片, 输 出为去噪后的图片。 虽然UNet已被广泛的应用到了图像分割领域, 但根据 “没有免费的午 餐”定理, UNet网络在印刷文字的去噪效果中并不一定是最好的。 为构建一个专门针对印刷 文字的去 噪网络, 需要人工智能专家依据经验不断地调整影响去 噪性能的超参数、 比如确 定是采用可分离卷积层还是普通的卷积层、 是采用最大池化还是平均池化等操作。 这些超 参数的调整需要花费专家大量的时间, 提高了企业的人力成本。 为搭建一个性能较好的去 噪网络, 并降低人工智能专家在此花费的时间, 本专利提出了一种基于自适应离散架构搜 索印刷文本去噪网络的方法。 发明内容 [0004]本发明要解决的技术问题是克服现有技术的缺陷, 提供一种基于自适应离散架构 搜索印刷文本去噪网络的方法。 [0005]本发明提供了如下的技 术方案: [0006]本发明提供一种基于自适应离散架构搜索印刷文本去噪网络的方法, 主要的思路 在于首先在定义了所有操作的超网中进 行搜索, 找到较为重要的操作, 随后构建出子网(去 噪网络), 具体而言, 包括以下步骤: [0007]Step1.初定去噪网络的结构: 确定去噪网络的结构由N个norm alblock1组成, 如图 3所示; 其中保持n ormalblock1的输入特 征图大小与输出 特征图大小相同; 其中N 为16; [0008]Step2.确定超网的normalblock 1数量: 由于需要在 超网中确定normalblock 1的结说 明 书 1/4 页 3 CN 114550178 A 3

.PDF文档 专利 一种基于自适应离散架构搜索印刷文本去噪网络的方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自适应离散架构搜索印刷文本去噪网络的方法 第 1 页 专利 一种基于自适应离散架构搜索印刷文本去噪网络的方法 第 2 页 专利 一种基于自适应离散架构搜索印刷文本去噪网络的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。