说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210535864.8 (22)申请日 2022.05.17 (71)申请人 上海孚厘科技有限公司 地址 201900 上海市宝山区石太路439号2 幢502A室 (72)发明人 李潇 戴彪  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 袁雪 (51)Int.Cl. G06V 30/413(2022.01) G06V 30/18(2022.01) G06V 30/162(2022.01) G06F 40/18(2020.01) G06Q 40/02(2012.01) (54)发明名称 无线条流水文件的转换方法、 装置、 设备及 存储介质 (57)摘要 本发明涉及数据处理技术领域, 公开了一种 无线条流水文件的转换方法、 装置、 设备及存储 介质, 所述方法包括: 对待转换的目标格式无线 条流水文件进行页面分割; 对目标无线流水图片 进行结构元素识别, 得到连续文字轮廓; 根据预 设高度系数、 预设行系数、 预设间隔系数 以及连 续文字轮廓确定行分组结构文字数据和空白列; 根据行分组结构文字数据和空白列生成目标结 构文字数据, 并按照目标数据写入 策略将目标结 构数据写入至目标线条文件; 通过上述方式, 根 据预设高度系数、 预设行系数、 预设间隔系数对 连续文字轮廓进行处理, 然后对空白列进行标记 和列补全, 再将目标结构数据进行写入, 从而能 够有效提高转换无线条流水文件的准确性, 且准 确定位出 单元格。 权利要求书2页 说明书10页 附图4页 CN 115050041 A 2022.09.13 CN 115050041 A 1.一种无线条流水文件的转换方法, 其特征在于, 所述无线条流水文件的转换方法包 括以下步骤: 对待转换的目标格式无线条流水文件进行页面分割, 得到目标 无线条流水图片; 对所述目标 无线流水图片进行 结构元素识别, 得到连续文字轮廓; 根据预设高度系数、 预设行系数、 预设间隔系数以及所述连续文字轮廓确定行分组结 构文字数据和空白列; 根据所述行分组结构文字数据和所述空白列生成 目标结构文字数据, 并按照目标数据 写入策略将所述目标 结构数据写入至目标线条文件。 2.如权利要求1所述的无线条流水文件的转换方法, 其特征在于, 所述对待转换的目标 格式无线条流水文件进行页面分割, 得到目标 无线条流水图片, 包括: 对待转换的目标格式无线条流水文件进行页面分割, 得到若干页目标格式无线条流水 文件; 按照目标倍数对所述若干页目标格式无线条流水文件进行缩放; 对缩放后的若干页目标格式无线条流水文件进行转换, 得到目标 无线条流水图片。 3.如权利要求2所述的无线条流水文件的转换方法, 其特征在于, 所述对待转换的目标 格式无线条流水文件进行页面分割, 得到若干页目标格式无线条流水文件之前, 还 包括: 接收终端设备发出的电子版 无线条流水文件; 对所述电子版 无线条流水文件进行扫描, 得到无线条流水扫描 文件; 在所述无线条流水扫描文件满足预设文字辨识缺陷时, 将所述无线条流水扫描文件作 为待转换的目标格式无线条流水文件。 4.如权利要求1所述的无线条流水文件的转换方法, 其特征在于, 所述对所述目标无线 流水图片进行 结构元素识别, 得到连续文字轮廓, 包括: 对所述目标 无线流水图片进行通道拆分, 得到目标 数量通道; 提取所述目标 数量通道的红色通道; 根据所述红色通道对所述目标无线流水图片进行二值化处理, 得到黑底白字的二值化 无线流水图片; 根据otsu阈值通过opencv图像算法对所述黑底白字的二值化无线流水图片进行结构 元素识别, 得到连续文字轮廓。 5.如权利要求1所述的无线条流水文件的转换方法, 其特征在于, 所述根据预设高度系 数、 预设行系数、 预设 间隔系数以及所述连续文字轮廓确定行分组结构文字数据和空白列, 包括: 根据所述连续文字轮廓得到对应的连续文字轮廓高度; 对所述连续文字轮廓高度小于所述预设高度系数的连续文字轮廓进行筛 选; 按照目标顺序关系对筛 选后的连续文字轮廓进行排序; 根据排序后的连续文字轮廓得到对应的当前轮廓纵坐标和上一轮廓纵坐标; 将所述当前轮廓纵坐标和所述上一轮廓纵坐标进行作差计算, 得到轮廓纵坐标差值; 在所述轮廓纵坐标差值大于预设行系数时, 得到各 行连续文字轮廓; 根据所述各 行连续文字轮廓得到当前轮廓横坐标和相邻轮廓横坐标; 将所述当前轮廓横坐标和所述相邻轮廓横坐标进行作差计算, 得到轮廓横坐标差值;权 利 要 求 书 1/2 页 2 CN 115050041 A 2在所述轮廓横坐标差值小于预设间隔系数时, 将所述当前轮廓横坐标对应的文字轮廓 和相邻轮廓横坐标对应的轮廓进行合并, 得到目标横坐标轮廓; 根据所述各 行连续文字轮廓和所述目标横坐标轮廓生成行分组结构文字数据; 根据所述行分组结构文字数据得到对应的空白列。 6.如权利要求5所述的无线条流水文件的转换方法, 其特征在于, 所述根据所述行分组 结构文字数据得到对应的空白列, 包括: 根据所述行分组结构文字数据得到列数次数集 合; 提取所述列数次数集 合中的最高次数列数; 获取待转换的目标格式无线条流水文件的标题总列数量; 对所述最高次数列数进行迭代, 得到目标列的左上横坐标; 根据所述标题总列数量得到标题行的下一列的右上横坐标; 在所述目标列的左上横坐标大于所述标题行的下一列的右上横坐标时, 将所述目标列 作为空白列。 7.如权利要求1至6中任一项所述的无线条流水文件的转换方法, 其特征在于, 所述根 据所述行分组结构文字数据和所述空白列生成目标结构文字数据, 并按照目标数据写入策 略将所述目标 结构数据写入至目标线条文件, 包括: 按照预设标记策略对所述空白列进行 标记; 通过目标约定数值对标记后的空白列进行列补全; 根据列补全后的空白列和所述行分组结构文字数据生成目标 结构文字数据; 按照目标 数据写入策略将所述目标 结构数据写入至目标线条文件。 8.一种无线条流水文件的转换装置, 其特征在于, 所述无线条流水文件的转换装置包 括: 分割模块, 用于对待转换的目标格式无线条流水文件进行页面分割, 得到目标无线条 流水图片; 识别模块, 用于对所述目标 无线流水图片进行 结构元素识别, 得到连续文字轮廓; 确定模块, 用于根据 预设高度系数、 预设行系数、 预设间隔系数以及所述连续文字轮廓 确定行分组结构文字数据和空白列; 生成模块, 用于根据所述行分组结构文字数据和所述空白列生成目标结构文字数据, 并按照目标 数据写入策略将所述目标 结构数据写入至目标线条文件。 9.一种无线条流水文件的转换设备, 其特征在于, 所述无线条流水文件的转换设备包 括: 存储器、 处理器及存储在所述存储器上并可在所述处理器上运行 的无线条流水文件的 转换程序, 所述无线 条流水文件的转换程序配置有实现如权利要求 1至7中任一项 所述的无 线条流水文件的转换 方法。 10.一种存储介质, 其特征在于, 所述存储介质上存储有无线条流水文件的转换程序, 所述无线条流水文件的转换程序被处理器执行时实现如权利要求1至7中任一项所述的无 线条流水文件的转换 方法。权 利 要 求 书 2/2 页 3 CN 115050041 A 3

.PDF文档 专利 无线条流水文件的转换方法、装置、设备及存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 无线条流水文件的转换方法、装置、设备及存储介质 第 1 页 专利 无线条流水文件的转换方法、装置、设备及存储介质 第 2 页 专利 无线条流水文件的转换方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:23:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。