说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111659254.0 (22)申请日 2021.12.3 0 (71)申请人 浙江核新同花 顺网络信息股份有限 公司 地址 310023 浙江省杭州市余杭区五常街 道同顺街18号同花 顺大楼 (72)发明人 徐阿龙 陶志伟  (74)专利代理 机构 成都七星天知识产权代理有 限公司 5125 3 代理人 冯娇 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/25(2019.01) G06F 16/35(2019.01) G06K 9/62(2022.01) (54)发明名称 一种表格处 理方法和系统 (57)摘要 本说明书实施例提供一种表格处理方法和 系统。 所述方法包括: 获取待处理表格; 基于表头 检测模型对待处理表格进行处理, 确定待处理表 格的行表头和/或列表头; 基于表头分类模型对 行表头进行处理, 确定待处理表格中列的分类结 果, 和/或基于表头分类模型对列表头进行处理, 确定待处理表格中行的分类结果; 基于待处理表 格中列和/或行的分类结果对待处理表格进行抽 取, 确定第一抽取 结果。 权利要求书3页 说明书18页 附图10页 CN 114328536 A 2022.04.12 CN 114328536 A 1.一种表格处 理方法, 其特 征在于, 所述方法包括: 获取待处 理表格; 基于表头检测模型对所述待处理表格进行处理, 确定所述待处理表格的行表头和/或 列表头; 基于表头分类模型对所述行表头进行处理, 确定所述待处理表格中列的分类结果, 和/ 或基于表头分类模型对所述列表头进行处 理, 确定所述待处 理表格中行的分类结果; 基于所述待处理表格中列和/或行的分类结果对所述待处理表格进行抽取, 确定第一 抽取结果。 2.如权利要求1所述的方法, 其特 征在于, 所述方法还 包括: 基于文本分类模型对所述待处理表格中单元格的文本进行处理, 确定所述单元格的文 本中词的类型; 基于所述单 元格的文本中词的类型对所述待处 理表格进行抽取, 确定第二抽取 结果。 3.如权利要求1所述的方法, 其特 征在于, 所述获取待处 理表格包括: 获取初始 表格及其标题; 基于表格分类模型对所述初始表格及其标题中的文本进行处理, 确定所述初始表格的 分类结果; 当所述初始表格的分类结果满足第 一预设条件时, 基于所述初始表格确定为所述待处 理表格。 4.如权利要求1所述的方法, 其特征在于, 所述表头检测模型包括行表头检测模型和列 表头检测模型, 所述基于表头检测模型对所述待处理表格进行处理, 确定所述待处理表格 的行表头和/或列表头包括: 基于所述行表头检测模型对所述待处理表格中的行进行处理, 确定所述待处理表格的 所述行表头; 和/或 基于所述列表头检测模型对所述待处理表格中的列进行处理, 确定所述待处理表格的 所述列表头 。 5.如权利要求4所述的方法, 所述基于所述行表头检测模型对所述待处理表格中的行 进行处理, 确定所述待处 理表格的行表头, 包括: 基于行拼接规则, 对所述待处 理表格中行的单 元格进行拼接, 得到第一 拼接结果; 基于所述行表头检测模型对所述第 一拼接结果进行处理, 确定所述待处理表格的所述 行表头; 所述基于所述列表头检测模型, 确定所述待处 理表格的列表头, 包括: 基于列拼接规则, 对所述待处 理表格中的列的单 元格进行拼接, 得到第二 拼接结果; 基于所述列表头检测模型对所述第 二拼接结果进行处理, 确定所述待处理表格的所述 列表头。 6.如权利要求5所述的方法, 其特征在于, 所述表头检测模型包括依次连接的特征嵌入 层、 第一序列层、 第一融合层、 第二序列层和第一分类层, 其中: 所述特征嵌入层用于基于所述待处理表格中单元格的拼接结果, 确定所述待处理表格 中单元格的第一特 征向量; 所述第一序列层用于基于所述待处理表格中单元格的第 一特征向量, 确定所述待处理权 利 要 求 书 1/3 页 2 CN 114328536 A 2表格中单 元格的第二特 征向量; 所述第一融合层用于基于所述待处理表格中单元格的第 二特征向量, 确定所述待处理 表格中行或列的第三特 征向量; 所述第二序列层用于基于所述待处理表格中行的第 三特征向量, 确定所述待处理表格 中行的第四特征向量, 或基于所述待处理表格中列的第三特征向量, 确定所述待处理表格 中列的第四特 征向量; 所述第一分类层用于基于所述待处理表格中行的第四特征向量, 确定所述待处理表格 的所述行表头, 或基于所述待处理表格中列的第四特征向量, 确定所述待处理表格的所述 列表头。 7.如权利要求6所述的方法, 其特征在于, 所述第 一特征包括所述待处理表格中单元格 的位置特 征和文本特 征。 8.如权利要求1所述的方法, 其特征在于, 所述表头分类模型包括行表头分类模型和列 表头分类模型, 所述基于表头分类模型对所述行表头和/或所述列表头进 行处理, 确定所述 待处理表格中列和/或行的分类结果包括: 基于所述行表头分类模型对所述行表头进行处理, 确定所述待处理表格中列的分类结 果; 和/或 基于所述列表头分类模型对所述列表头进行处理, 确定所述待处理表格中行的分类结 果。 9.如权利要求8所述的方法, 其特征在于, 所述基于所述行表头分类模型对所述行表头 进行处理, 确定所述待处 理表格中列的分类结果包括: 基于列拼接规则, 对所述行表头中的单 元格进行拼接, 得到第三 拼接结果; 基于所述行表头分类模型对所述第 三拼接结果、 所述行表头 中单元格的单元格编号和 列编号进行处 理, 确定所述待处 理表格中列的分类结果; 所述基于所述列表头分类模型对所述列表头进行处理, 确定所述待处理表格中行的分 类结果包括: 基于行拼接规则, 对所述列表头中的单 元格进行拼接, 得到第四拼接结果; 基于所述列表头分类模型对所述第四拼接结果、 所述列表头 中单元格的单元格编号和 行编号进行处 理, 确定所述待处 理表格中行的分类结果。 10.如权利要求9所述的方法, 其特征在于, 所述表头分类模型包括依次连接的编码层、 第二融合层、 注意力层、 第三融合层和第二分类层; 其中: 所述编码层用于对所述行表头或所述列表头 中单元格的字符进行编码, 得到所述字符 的编码向量; 所述第二融合层用于基于所述字符的编码向量, 以及所述列表头或所述行表头 中单元 格的单元格编号, 确定所述单 元格的编码向量; 所述注意力层用于基于所述列表头中所述单元格的编码向量和所述单元格的行编号, 确定所述列 表头中单元格的单元格融合特征向量, 或用于基于所述行表头中所述单元格的 编码向量和所述单元格的列编号, 确定所述行表头中单元格的单元格融合特征向量, 其中, 所述列表头中单元格的单元格融合特征向量包含与该单元格位于同一行的其他单元格的 注意力信息, 所述行表头中单元格的单元格融合特征向量包含与所述单元格位于同一列的权 利 要 求 书 2/3 页 3 CN 114328536 A 3

.PDF文档 专利 一种表格处理方法和系统

文档预览
中文文档 32 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种表格处理方法和系统 第 1 页 专利 一种表格处理方法和系统 第 2 页 专利 一种表格处理方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:03上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。