说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210577025.2 (22)申请日 2022.05.25 (71)申请人 中国建设银行股份有限公司 地址 100033 北京市西城区金融大街25号 申请人 建信金融科技有限责任公司 (72)发明人 张晨 蒲柯锐 王全礼 李昱  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 专利代理师 王菲菲 (51)Int.Cl. G06F 40/177(2020.01) G06F 40/205(2020.01) G06F 40/289(2020.01) G06F 16/36(2019.01) (54)发明名称 一种表格信息抽取方法、 装置、 设备及 介质 (57)摘要 本申请涉及数据挖掘技术领域, 具体涉及一 种表格信息抽取方法、 装置、 设备及介质, 用于提 高表格信息抽取的准确性。 该方法包括: 对包括 表格的目标文档进行分词, 获得多个词; 对多个 词中每个词的位置向量和特征向量进行拼接, 获 得每个词的序列向量; 位置向量用于指示每个词 在目标文档的页面中的位置, 特征向量用于指示 每个词与 目标知识 图谱中的实体之间的关联关 系, 目标知识图谱为目标领域的知识图谱; 将每 个词的序列向量输入神经网络, 输出每个词的信 息类型; 神经网络是基于大量样 本数据集训练获 得的, 样本数据集包括多个样本词的序列 向量、 以及每个样 本词的信息类型; 从多个词中抽取信 息类型为关键信息类型的词, 获得表格的关键信 息。 权利要求书3页 说明书13页 附图3页 CN 114818627 A 2022.07.29 CN 114818627 A 1.一种表格信息抽取 方法, 其特 征在于, 包括: 对包括表格的目标文档进行分词, 获得多个词; 对所述多个词中每个词的位置向量和特征向量进行拼接, 获得每个词的序列向量; 其 中, 每个词的位置 向量用于指示每个词在所述 目标文档的页面中的位置, 每个词的特征向 量用于指示每个词 与目标知识图谱中的实体之 间的关联关系, 所述目标知识图谱为目标领 域的知识图谱; 将每个词的序列向量输入神经网络, 输出每个词的信息类型; 其中, 所述神经网络是基 于大量样本数据集训练获得的, 所述样本数据集包括多个样本词的序列向量、 以及每个样 本词的信息类型, 所述信息类型包括关键信息类型和非关键信息类型; 从所述多个词中抽取信息类型为关键信息类型的词, 获得 所述表格的关键信息 。 2.如权利要求1所述的方法, 其特征在于, 所述多个词具有排列顺序, 从所述多个词中 抽取信息类型为关键信息类型的词, 获得 所述表格的关键信息, 包括: 若所述多个词中第 一词的信 息类型为关键信 息类型且所述第 一词为词首, 则将排列在 所述第一词和第三词之间的至少一个词确定为第二词; 其中, 所述第三词的信息类型为关 键信息类型且所述第三词为词首, 或者, 所述第三词的信息类型为非关键信息类型; 若所述第二词的信 息类型为关键信 息类型且所述第 二词为非词首, 则将从所述多个词 中抽取所述第一词和所述第二词, 将所述第一词和所述第二词合并为 一个关键信息 。 3.如权利要求1所述的方法, 其特征在于, 在对所述多个词中每个词的位置向量和特征 向量进行拼接, 获得每 个词的序列向量之前, 所述方法还 包括: 将每个词的四元组信 息转换为向量, 获得每个词的位置向量; 其中, 所述 四元组信 息包 括每个词在所述目标文档的页面中的横坐标和纵坐标、 每个词、 指示每个词是否在所述表 格内的特 征值。 4.如权利要求1所述的方法, 其特征在于, 在对所述多个词中每个词的位置向量和特征 向量进行拼接, 获得每 个词的序列向量之前, 所述方法还 包括: 获取所述目标知识图谱; 其中, 所述知识图谱包括实体集合和所述实 际集合中各个实 体之间的关系; 根据所述目标知识图谱, 确定每个词的第一特征向量和第 二特征向量; 其中, 每个词的 第一特征向量用于指示每个词是否属于所述 实体集合, 每个词的第二特征向量用于指示每 个词与所述实体集 合中的实体是否存在关系; 将每个词的第一特 征向量和第二特 征向量进行拼接, 获得每 个词的特 征向量。 5.如权利要求1 ‑4中任一项所述的方法, 其特征在于, 在对包括表格的目标文档进行分 词, 获得多个词之前, 所述方法还 包括: 获取初始文档; 若所述初始文档为PDF文本, 则通过PDF解析工具对所述PDF文本进行解析, 获得所述目 标文档; 或者, 若所述初始文档为图片, 则通过光学字符识别OCR工具对所述图片进行识别, 获得所述 目标文档。 6.一种表格信息抽取装置, 其特 征在于, 包括: 分词模块, 用于对 包括表格的目标文档进行分词, 获得多个词;权 利 要 求 书 1/3 页 2 CN 114818627 A 2获得模块, 用于对所述多个词中每个词的位置向量和特征向量进行拼接, 获得每个词 的序列向量; 其中, 每个词的位置向量用于指示每个词在所述目标文档的页面中的位置, 每 个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系, 所述目标知识 图谱为目标 领域的知识图谱; 输出模块, 用于将每个词的序列向量输入神经网络, 输出每个词的信息类型; 其中, 所 述神经网络是基于大量样本数据集训练获得的, 所述样本数据集包括多个样本词的序列向 量、 以及每 个样本词的信息类型, 所述信息类型包括关键信息类型和非关键信息类型; 抽取模块, 用于从所述多个词中抽取信息类型为关键信息类型的词, 获得所述表格的 关键信息 。 7.如权利要求6所述的装置, 其特征在于, 所述多个词具有排列顺序, 所述抽取模块具 体用于: 若所述多个词中第 一词的信 息类型为关键信 息类型且所述第 一词为词首, 则将排列在 所述第一词和第三词之间的至少一个词确定为第二词; 其中, 所述第三词的信息类型为关 键信息类型且所述第三词为词首, 或者, 所述第三词的信息类型为非关键信息类型; 若所述第二词的信 息类型为关键信 息类型且所述第 二词为非词首, 则将从所述多个词 中抽取所述第一词和所述第二词, 将所述第一词和所述第二词合并为 一个关键信息 。 8.如权利要求6所述的装置, 其特 征在于, 所述获得模块还用于: 在对所述多个词中每个词的位置向量和特征向量进行拼接, 获得每个词的序列向量之 前, 将每个词的四元组信息转换为向量, 获得每个词的位置向量; 其中, 所述四元组信息包 括每个词在所述目标文档的页面中的横坐标和纵坐标、 每个词、 指示每个词是否在所述表 格内的特 征值。 9.如权利要求6所述的装置, 其特 征在于, 所述获得模块还用于: 在对所述多个词中每个词的位置向量和特征向量进行拼接, 获得每个词的序列向量之 前, 获取所述目标知识图谱; 其中, 所述知识图谱包括 实体集合和所述 实际集合中各个实体 之间的关系; 根据所述目标知识图谱, 确定每个词的第一特征向量和第 二特征向量; 其中, 每个词的 第一特征向量用于指示每个词是否属于所述 实体集合, 每个词的第二特征向量用于指示每 个词与所述实体集 合中的实体是否存在关系; 将每个词的第一特 征向量和第二特 征向量进行拼接, 获得每 个词的特 征向量。 10.如权利要求6 ‑9中任一项所述的装置, 其特 征在于, 所述获得模块还用于: 在对包括表格的目标文档进行分词, 获得多个词之前, 获取初始文档; 若所述初始文档为PDF文本, 则通过PDF解析工具对所述PDF文本进行解析, 获得所述目 标文档; 或者, 若所述初始文档为图片, 则通过光学字符识别OCR工具对所述图片进行识别, 获得所述 目标文档。 11.一种电子设备, 其特 征在于, 包括: 存储器, 用于存 储程序指令; 处理器, 用于调用所述存储器中存储的程序指令, 按照获得的程序指令执行权利要求 1‑5中任一项所述的方法包括的步骤。权 利 要 求 书 2/3 页 3 CN 114818627 A 3

.PDF文档 专利 一种表格信息抽取方法、装置、设备及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种表格信息抽取方法、装置、设备及介质 第 1 页 专利 一种表格信息抽取方法、装置、设备及介质 第 2 页 专利 一种表格信息抽取方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。