专利一种基于图神经网络的多模态文档信息抽取方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210056911.0 (22)申请日 2022.01.18 (71)申请人深圳前海环融联易信息科技服务有限公司地址 518000 广东省深圳市前海深港合作区前湾一路1号A栋201室（入驻深圳市前海商务秘书有限公司） (72)发明人罗伟杰　陈永红　谢翀　 (74)专利代理机构深圳市中科创为专利代理有限公司 4 4384 代理人谭雪婷　彭涛 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/25(2022.01) G06V 10/44(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于图神经网络的多模态文档信息抽取方法 (57)摘要本发明公开了一种基于图神经网络的多模态文档信息抽取方法，包括S1：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标； S2：对文本块进行文本、视觉、布局三种模态特征提取，并进行模态间的特征融合，输出图节点特征； S3：将文本块内容进行抽象化，输出初始图G＝(V,E,A)： S4：通过将图节点分配到不同的簇来实现对初始图进行划分，对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块； S5：根据各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新； S6：对图节点进行节点分类和链路预测，输出最终结果。本发明能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强。权利要求书1页说明书4页附图1页 CN 114419304 A 2022.04.29 CN 114419304 A 1.一种基于图神经网络的多模态文档信息抽取方法，其特征在于，包括如下步骤：步骤S1：光学字符识别OCR：对图片中的文字进行识别，并转化成文本格式输出文本块，同时输出文本块的位置坐标；步骤S2：预编码：对光学字符识别OCR输出的文本块进行特征提取，包括文本、视觉、布局三种模态特征，并进行模态间的特征融合，输出图节点特征；步骤S3：图构建：将所述文本块内容进行抽象化，输出初始图G＝(V,E,A)：其中， V代表图节点， E代表节点间的边， A 代表图的邻接矩阵；步骤S4：图划分：通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分，并对图节点的分配矩阵进行迭代更新，通过迭代多次分配实现图的分块；步骤S5：图深度编码：根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表示进行更新；步骤S6：信息抽取：对步骤S5中的图节点进行节点分类和链路预测，输出最终结果。 2.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S1中，对图片中的文字进行识别包括文本检测和文字识别，通过文本检测和文字识别输出所述文本块和文本块的位置坐标，其中，文本检测使用了轻量级DBNet作为骨干网络；文字识别使用CRN N来进行行文本识别，并采用CenterL oss来提升识别效果。 3.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S2中，使用RoBERT a提取文本特征，使用ResNet作为骨干网络，根据文本块的位置坐标并通过RoIA lign获得对应文本块范围内的视觉特征；并且，根据文本块的位置坐标、大小生成初始布局特征；最后，对提取的文本特征、视觉特征、布局特征三种模态特征，利用 Block机制进行特征融合，输出图节点特征。 4.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S3中， E代表节点间的边，是由各文本块间的空间关系以及语义相似度定义，边的特征通过计算文本块之间的相对位置关系，以及包含两者的视觉范围特征得出； A代表图的邻接矩阵，通过得到的边特征，利用多头自注意力机制进行计算。 5.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S4中，通过将图节点分配到不同的簇来实现图划分具体包括：假设当前图节点个数为N，首先预定义衰减因子c确定下一层簇的个数N*c，利用第一图卷积网络进行信息交互和图节点分配矩阵学习N x N*c，分配完成后输入到另外的第二图卷积网络进行簇之间的信息交互，图的邻接矩阵维度由N x N变为N*c x N*c；通过迭代多次分配实现图的分块。 6.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S5中，对图节点的最终表示进行更新包括：在相同簇内的图节点按照 “从左到右，从上到下 ”的原则进行横向位置排序编码；对图节点的依次分配结果进行纵向位置编码，同时将层次化分块信息和局部阅读顺序融入到图节点表示中。 7.根据权利要求1所述的基于图神经网络的多模态文档信息抽取方法，其特征在于：在所述步骤S6中，所述链路预测是通过拼接两个候选图节点的表示作为输入，最后通过一个分类器计算两者之间边的概率。权　利　要　求　书 1/1 页 2 CN 114419304 A 2一种基于图神经网络的多模态文档信息抽取方法技术领域 [0001]本发明涉及计算机软件领域，尤其涉及的是一种基于图神经网络的多模态文档信息抽取方法。背景技术 [0002]随着行业数字化转型，业务数据主要以多模态文档(如PDF、扫描件、文档图片等) 的非结构化格式进行存储，文档自动化处理对于提高企业生产效率至关重要。如在供应链金融领域，需要从发票、合同、税单等电子文档中提取关键有效信息，快速了解上下游企业风险状态，协助核心企业进行供应链管理。多模态文档信息抽取任务包括从文档提取特定类别实体，并输出实体间特定关系，以key ‑value的形式输出结构化信息。 [0003]传统的文档信息抽取主要通过人工定制规则和模板匹配、小样本统计学习，该方法对少量固定样式的文档有效，但通用性差，迁移成本高，无法适应当前多模态文档类型和样式繁多的特点。基于深度学习的方法利用大量未标注电子文档进行自监督预训练，并利用多模态技术把文本、视觉和布局信息进行融合得到文档特征，最后根据文本框位置按特定顺序(一般为从上到下、从左到右)进行序列化，通过NER技术进行实体识别，以及对三元组分类的方式进行关系抽取。该方法能够学习到不同类型文档的有效特征，在实体识别任务性能上有较大提升，但由于最后通过序列化文本进行实体识别，对于布局复杂的文档效果较差(如分栏文档中可能将实体切割)，同时在进行关系抽取时没有充分利用文本块的空间关系，一般关系匹配效果较差。 [0004]目前主流的多模态文档信息抽取方法主要包括以下流程： [0005]1)利用OCR技术识别文档中的候选文本框； [0006]2)通过预训练模型提取候选文本框的特征，包括文本特征、视觉特征和位置坐标； [0007]3)对2)中提取的不同维度特征，通过多模态融合技术对候选文本块进行融合编码，融合方式包括最大(平均)池化、双线性模型，注意力机制等； [0008]4)根据候选文本框的位置坐标，按照从上到下，从左到右的顺序进行序列化，然后利用NER技术进行实体识别，通过对候选文本框两两组合形成的三元组(加入相对位置信息)分类进行关系抽取。 [0009]现有技术依赖于OC R模型的输出进行序列化，一般遵循 “从上到下，从左到右 ”的阅读原则，但对于文档中分栏、文本图片表格混杂的复杂布局，此时获得的阅读顺序多数情况下是错误的，容易导致实体被切割以及语义混乱；同时，序列化无法捕捉文档中的结构化层次信息(如表格中表头与单元格间的关系)，在关系抽取的任务中往往表现不佳。 [0010]因此，现有技术存在缺陷，需要改进。发明内容 [0011]本发明所要解决的技术问题是：提供一种能够有效捕获文档的空间布局信息、有效提高语义准确性，通用性强的基于图神经网络的多模态文档信息抽取方法。说　明　书 1/4 页 3 CN 114419304 A 3

专利 一种基于图神经网络的多模态文档信息抽取方法

专利一种基于图神经网络的多模态文档信息抽取方法