说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210335092.3 (22)申请日 2022.03.31 (71)申请人 壹沓科技 (上海) 有限公司 地址 200040 上海市 静安区万 荣路666、 670 号1101室 (72)发明人 卞晓瑜 肖鸣林 高磊 (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 杨小红 (51)Int.Cl. G06V 30/412(2022.01) G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/295(2020.01) (54)发明名称 一种表格还原方法、 装置及相关 设备 (57)摘要 本申请公开了一种表格还原方法、 装置及相 关设备, 该方法包括: 从待还原的表格图像中获 取各文本块的位置信息及文本内容; 基于各文本 块的位置信息, 获取各文本块组合; 对每一文本 块组合内的各文本块的文本内容进行命名实体 识别, 并根据识别结果将目标文本块组合内的各 文本块合并成一个文本块; 基于表格图像中各文 本块的位置信息及文本内容对各文本块进行聚 类分析, 得到聚类信息, 该聚类信息包括各行基 线以及各列基线; 将各文本块还原到由各行基线 和各列基线构成的行列矩阵中, 得到还原后的表 格的各单元格信息。 本申请能够区分出跨行或跨 列的文本块, 按照行基线及列基线进行文本块所 在单元格的还原, 最终能适应性的处理跨行跨列 表格。 权利要求书2页 说明书10页 附图4页 CN 114724153 A 2022.07.08 CN 114724153 A 1.一种表格还原方法, 其特 征在于, 包括: 从待还原的表格图像中获取 各文本块的位置信息及文本内容; 基于各文本块的位置信息, 获取各文本块组合, 每一文本块组合包含至少两个位置相 邻的文本块; 对每一文本块组合内的各文本块的文本 内容进行命名实体识别, 并根据识别结果筛选 出目标文本块组合, 将目标文本块组合内的各文本块合并成一个文本块, 以及更新合并后 的文本块的位置信息和文本内容, 其中, 所述 目标文本块组合内的各文本块能够合并成单 一语义的实体; 基于表格图像 中各文本块的位置信 息及文本内容对各文本块进行聚类分析, 得到聚类 信息, 所述聚类信息包括各 行基线以及各列基线; 将各文本块还原到由各行基线和各列基线构 成的行列矩阵中, 得到还原后的表格的各 单元格信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述基于表格图像中各文本块的位置信 息 及文本内容对各文本块进行聚类分析, 得到聚类信息的过程, 包括: 针对每一文本块: 基于所述文本块的文本内容, 对所述文本块进行词向量嵌入, 得到所述文本块的词向 量; 基于所述文本块的位置信息, 获取 所述文本块的矩形边界框; 将所述矩形边界框的坐标信息融合到所述词向量, 得到所述文本块的融合向量; 通过K‑means对各文本块的融合向量进行聚类分析, 得到聚类信息 。 3.根据权利要求2所述的方法, 其特征在于, 所述通过K ‑means对各文本块的融合向量 进行聚类分析, 得到聚类信息的过程, 包括: 通过K‑means分别从横 向及竖向对各文本块的融合向量进行聚类分析, 得到各行基线 和各列基线。 4.根据权利要求1所述的方法, 其特征在于, 所述 聚类信息还包括同时聚类到一行基线 和一列基线的文本块, 以及不能同时聚类到一行基线和一列基线的游离文本块; 所述将各 文本块还原到由各 行基线和各列基线构成的行列矩阵中的过程, 包括: 将同时聚类到一行基线和一列基线的文本块还原到由所述行基线和所述列基线构成 的单元格中; 对于由各 行基线以及各列基线构成的每一单 元格: 判断所述单 元格的内部是否存在游离文本块; 若是, 将所述游离文本块还原到所述单 元格中。 5.根据权利要求1所述的方法, 其特征在于, 所述基于各文本块的位置信息, 获取各文 本块组合的过程, 包括: 基于各文本块的位置信息, 确定上下相邻或左右相邻的两个或多个邻接文本块, 得到 各文本块组合。 6.根据权利要求1所述的方法, 其特征在于, 所述 聚类信息还包括各文本块的语义聚类 情况, 所述方法还 包括: 根据各文本块的语义聚类情况, 以及各文本块所聚类到的行基线或列基线, 确定目标权 利 要 求 书 1/2 页 2 CN 114724153 A 2表格的表头信息 。 7.根据权利要求1~6中任一项所述的方法, 其特征在于, 所述从待还原 的表格图像中 获取各文本块的位置信息及文本内容的过程, 包括: 通过光学字符识别技 术从待还原的表格图像中获取 各文本块的位置信息及文本内容。 8.一种表格还原装置, 其特 征在于, 包括: 文本块获取 单元, 用于从待还原的表格图像中获取 各文本块的位置信息及文本内容; 相邻块获取单元, 用于基于各文本块的位置信 息, 获取各文本块组合, 每一文本块组合 包含至少两个位置相邻的文本块; 文本块合并单元, 用于对每一文本块组合内的各文本块的文本内容进行命名实体识 别, 并根据识别结果筛选出目标文本块组合, 将目标文本块组合内的各文本块合并成一个 文本块, 以及更新合并后的文本块的位置信息和文本内容, 其中, 所述目标文本块组合内的 各文本块能够合并成单一语义的实体; 文本块聚类单元, 用于基于表格图像中各文本块的位置信 息及文本 内容对各文本块进 行聚类分析, 得到聚类信息, 所述聚类信息包括各 行基线以及各列基线; 单元格还原单元, 用于将各文本块还原到由各行基线和各列基线构成的行列矩阵中, 得到还原后的表格的各 单元格信息 。 9.一种表格还原设备, 其特 征在于, 包括: 存 储器和处 理器; 所述存储器, 用于存 储程序; 所述处理器, 用于执行所述程序, 实现如权利要求1~7中任一项所述的表格还原方法 的各个步骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处理器执 行时, 实现如权利要求1~7中任一项所述的表格还原方法的各个步骤。权 利 要 求 书 2/2 页 3 CN 114724153 A 3
专利 一种表格还原方法、装置及相关设备
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-18 17:47:26
上传分享
举报
下载
原文档
(1.1 MB)
分享
友情链接
GB-T 21361-2017 汽车用空调器.pdf
方正证券 安全服务 网络安全行业的制高点.pdf
GB-T 30280-2013 信息安全技术 鉴别与授权 地理空间可扩展访问控制置标语言.pdf
野村深度报告 日本疫情后的消费复苏情况 2022.pdf
GB-T 31773-2015 中药方剂编码规则及编码.pdf
GB-T 32614-2016 户外运动服装 冲锋衣.pdf
GB-T 17903.2-2021 信息技术 安全技术 抗抵赖 第2部分:采用对称技术的机制.pdf
JY-T 0583-2020 聚焦离子束系统分析方法通则.pdf
T-ISC 0022—2023 数字孪生城市平台技术要求.pdf
GB-T 4333.4-2007 硅铁 铝含量的测定 铬天青S分光光度法、EDTA滴定法和火焰原子吸收光谱法.pdf
商用密码应用安全性评估“十问十答”.pdf
freebuf DevSecOps行业洞察报告.pdf
GB-T 35218-2017 拖拉机可靠性 台架试验方法.pdf
GB-T 43541-2023 智能制造 网络协同制造 业务架构与信息模型.pdf
信通院 大模型治理蓝皮报告 2023年 ——从规则走向实践.pdf
专利 一种温控器测试系统.PDF
GB-T 29156-2012 金属复合装饰板材生产生命周期评价技术规范 产品种类规则.pdf
绿盟 工业控制系统安全评估流程.pdf
JR-T0072-2020 金融行业网络安全等级保护测评指南.pdf
GB-T 2585-2021 铁路用热轧钢轨.pdf
1
/
3
17
评价文档
赞助1.5元 点击下载(1.1 MB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。