专利一种表格信息抽取方法、装置、设备及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210577025.2 (22)申请日 2022.05.25 (71)申请人中国建设银行股份有限公司地址 100033 北京市西城区金融大街25号申请人建信金融科技有限责任公司 (72)发明人张晨　蒲柯锐　王全礼　李昱　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师王菲菲 (51)Int.Cl. G06F 40/177(2020.01) G06F 40/205(2020.01) G06F 40/289(2020.01) G06F 16/36(2019.01) (54)发明名称一种表格信息抽取方法、装置、设备及介质 (57)摘要本申请涉及数据挖掘技术领域，具体涉及一种表格信息抽取方法、装置、设备及介质，用于提高表格信息抽取的准确性。该方法包括：对包括表格的目标文档进行分词，获得多个词；对多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；位置向量用于指示每个词在目标文档的页面中的位置，特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，目标知识图谱为目标领域的知识图谱；将每个词的序列向量输入神经网络，输出每个词的信息类型；神经网络是基于大量样本数据集训练获得的，样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型；从多个词中抽取信息类型为关键信息类型的词，获得表格的关键信息。权利要求书3页说明书13页附图3页 CN 114818627 A 2022.07.29 CN 114818627 A 1.一种表格信息抽取方法，其特征在于，包括：对包括表格的目标文档进行分词，获得多个词；对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；其中，每个词的位置向量用于指示每个词在所述目标文档的页面中的位置，每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，所述目标知识图谱为目标领域的知识图谱；将每个词的序列向量输入神经网络，输出每个词的信息类型；其中，所述神经网络是基于大量样本数据集训练获得的，所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型，所述信息类型包括关键信息类型和非关键信息类型；从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息。 2.如权利要求1所述的方法，其特征在于，所述多个词具有排列顺序，从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息，包括：若所述多个词中第一词的信息类型为关键信息类型且所述第一词为词首，则将排列在所述第一词和第三词之间的至少一个词确定为第二词；其中，所述第三词的信息类型为关键信息类型且所述第三词为词首，或者，所述第三词的信息类型为非关键信息类型；若所述第二词的信息类型为关键信息类型且所述第二词为非词首，则将从所述多个词中抽取所述第一词和所述第二词，将所述第一词和所述第二词合并为一个关键信息。 3.如权利要求1所述的方法，其特征在于，在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，所述方法还包括：将每个词的四元组信息转换为向量，获得每个词的位置向量；其中，所述四元组信息包括每个词在所述目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在所述表格内的特征值。 4.如权利要求1所述的方法，其特征在于，在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，所述方法还包括：获取所述目标知识图谱；其中，所述知识图谱包括实体集合和所述实际集合中各个实体之间的关系；根据所述目标知识图谱，确定每个词的第一特征向量和第二特征向量；其中，每个词的第一特征向量用于指示每个词是否属于所述实体集合，每个词的第二特征向量用于指示每个词与所述实体集合中的实体是否存在关系；将每个词的第一特征向量和第二特征向量进行拼接，获得每个词的特征向量。 5.如权利要求1 ‑4中任一项所述的方法，其特征在于，在对包括表格的目标文档进行分词，获得多个词之前，所述方法还包括：获取初始文档；若所述初始文档为PDF文本，则通过PDF解析工具对所述PDF文本进行解析，获得所述目标文档；或者，若所述初始文档为图片，则通过光学字符识别OCR工具对所述图片进行识别，获得所述目标文档。 6.一种表格信息抽取装置，其特征在于，包括：分词模块，用于对包括表格的目标文档进行分词，获得多个词；权　利　要　求　书 1/3 页 2 CN 114818627 A 2获得模块，用于对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量；其中，每个词的位置向量用于指示每个词在所述目标文档的页面中的位置，每个词的特征向量用于指示每个词与目标知识图谱中的实体之间的关联关系，所述目标知识图谱为目标领域的知识图谱；输出模块，用于将每个词的序列向量输入神经网络，输出每个词的信息类型；其中，所述神经网络是基于大量样本数据集训练获得的，所述样本数据集包括多个样本词的序列向量、以及每个样本词的信息类型，所述信息类型包括关键信息类型和非关键信息类型；抽取模块，用于从所述多个词中抽取信息类型为关键信息类型的词，获得所述表格的关键信息。 7.如权利要求6所述的装置，其特征在于，所述多个词具有排列顺序，所述抽取模块具体用于：若所述多个词中第一词的信息类型为关键信息类型且所述第一词为词首，则将排列在所述第一词和第三词之间的至少一个词确定为第二词；其中，所述第三词的信息类型为关键信息类型且所述第三词为词首，或者，所述第三词的信息类型为非关键信息类型；若所述第二词的信息类型为关键信息类型且所述第二词为非词首，则将从所述多个词中抽取所述第一词和所述第二词，将所述第一词和所述第二词合并为一个关键信息。 8.如权利要求6所述的装置，其特征在于，所述获得模块还用于：在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，将每个词的四元组信息转换为向量，获得每个词的位置向量；其中，所述四元组信息包括每个词在所述目标文档的页面中的横坐标和纵坐标、每个词、指示每个词是否在所述表格内的特征值。 9.如权利要求6所述的装置，其特征在于，所述获得模块还用于：在对所述多个词中每个词的位置向量和特征向量进行拼接，获得每个词的序列向量之前，获取所述目标知识图谱；其中，所述知识图谱包括实体集合和所述实际集合中各个实体之间的关系；根据所述目标知识图谱，确定每个词的第一特征向量和第二特征向量；其中，每个词的第一特征向量用于指示每个词是否属于所述实体集合，每个词的第二特征向量用于指示每个词与所述实体集合中的实体是否存在关系；将每个词的第一特征向量和第二特征向量进行拼接，获得每个词的特征向量。 10.如权利要求6 ‑9中任一项所述的装置，其特征在于，所述获得模块还用于：在对包括表格的目标文档进行分词，获得多个词之前，获取初始文档；若所述初始文档为PDF文本，则通过PDF解析工具对所述PDF文本进行解析，获得所述目标文档；或者，若所述初始文档为图片，则通过光学字符识别OCR工具对所述图片进行识别，获得所述目标文档。 11.一种电子设备，其特征在于，包括：存储器，用于存储程序指令；处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行权利要求 1‑5中任一项所述的方法包括的步骤。权　利　要　求　书 2/3 页 3 CN 114818627 A 3

专利 一种表格信息抽取方法、装置、设备及介质

专利一种表格信息抽取方法、装置、设备及介质