说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210056911.0 (22)申请日 2022.01.18 (71)申请人 深圳前海环融联易信息科技 服务有 限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室 (入驻深圳市 前海商务秘书 有限公司) (72)发明人 罗伟杰 陈永红 谢翀  (74)专利代理 机构 深圳市中科创为专利代理有 限公司 4 4384 代理人 谭雪婷 彭涛 (51)Int.Cl. G06V 10/22(2022.01) G06V 10/25(2022.01) G06V 10/44(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于图神经网络的多模态文档信息抽 取方法 (57)摘要 本发明公开了一种基于图神经网络的多模 态文档信息抽取方法, 包括S1: 对图片中的文字 进行识别, 并转化成文本格式输出文本块, 同时 输出文本块的位置坐标; S2: 对文本块进行文本、 视觉、 布局三种模态特征提取, 并进行模态间的 特征融合, 输出图节点特征; S3: 将文本块内容进 行抽象化, 输 出初始图G=(V,E,A): S4: 通过将图 节点分配到不同的簇来实现对初始图进行划分, 对图节点的分配矩阵进行迭代更新, 通过迭代多 次分配实现图的分块; S5: 根据各个阶段的分配 矩阵和簇表示对图节点的最终表示进行更新; S6: 对图节点进行节点分类和链路预测, 输出最 终结果。 本发 明能够有效捕获文档的空间布局信 息、 有效提高语义 准确性, 通用性强。 权利要求书1页 说明书4页 附图1页 CN 114419304 A 2022.04.29 CN 114419304 A 1.一种基于图神经网络的多模态文档 信息抽取 方法, 其特 征在于, 包括如下步骤: 步骤S1: 光学字符识别OCR: 对图片中的文字进行识别, 并转化成文本格式输出文本块, 同时输出文本块的位置坐标; 步骤S2: 预编码: 对光学字符识别OCR输出的文本块进行特征提取, 包括文本、 视觉、 布 局三种模态特 征, 并进行模态间的特 征融合, 输出图节点特 征; 步骤S3: 图构建: 将所述文本块内容进行抽象化, 输出初始图G=(V,E,A): 其中, V代表 图节点, E代 表节点间的边, A 代表图的邻接矩阵; 步骤S4: 图划分: 通过将图节点分配到不同的簇来实现对步骤S3中的初始图进行划分, 并对图节点的分配矩阵进行迭代更新, 通过迭代多次分配实现图的分块; 步骤S5: 图深度编码: 根据步骤S4中各个阶段的分配矩阵和簇表示对图节点的最终表 示进行更新; 步骤S6: 信息抽取: 对步骤S5中的图节点进行节点分类和链路预测, 输出最终结果。 2.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S1中, 对图片中的文字进行识别包括文本检测和文字识别, 通过文本检测和文字 识别输出所述文本块和文本块的位置坐标, 其中, 文本检测使用了轻量级DBNet作为骨干网 络; 文字识别使用CRN N来进行行文本识别, 并采用CenterL oss来提升识别效果。 3.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S2中, 使用RoBERT a提取文本特征, 使用ResNet作为骨干网络, 根据文本块的位置 坐标并通过RoIA lign获得对应文本块范围内的视觉特征; 并且, 根据文本块的位置坐标、 大 小生成初始布局特征; 最后, 对提取的文本特征、 视觉特征、 布局特征三种模态特征, 利用 Block机制进行 特征融合, 输出图节点特 征。 4.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S3中, E代表节点间的边, 是由各文本块间的空间关系以及语义相 似度定义, 边的 特征通过计算文本块之间的相对位置 关系, 以及包含两者的视觉范围特征得出; A代表图的 邻接矩阵, 通过 得到的边特 征, 利用多头自注意力机制进行计算。 5.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S4中, 通过将图节点分配到不同的簇来实现图划分具体包括: 假设当前图节点个 数为N, 首先预定义衰减因子c确定下一层簇的个数N*c, 利用第一图卷积网络进 行信息交互 和图节点分配矩阵学习N  x N*c, 分配完成后输入到另外的第二图卷积网络进行簇之间的 信息交互, 图的邻接矩阵维度由N  x N变为N*c x N*c; 通过迭代多次分配实现图的分块。 6.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S5中, 对图节点的最终表示进行更新包括: 在相同簇内的图节点按照 “从左到右, 从上到下 ”的原则进 行横向位置排序编 码; 对图节点的依次分配结果进 行纵向位置编 码, 同 时将层次化分块信息和 局部阅读顺序融入到图节点表示中。 7.根据权利要求1所述的基于图神经网络的多模态文档信 息抽取方法, 其特征在于: 在 所述步骤S6中, 所述链路预测是通过拼接两个候选图节点的表示作为输入, 最后通过一个 分类器计算两者之间边的概 率。权 利 要 求 书 1/1 页 2 CN 114419304 A 2一种基于图神经 网络的多模 态文档信息抽取方 法 技术领域 [0001]本发明涉及计算机软件领域, 尤其涉及的是一种基于图神经网络的多模态文档信 息抽取方法。 背景技术 [0002]随着行业数字化转型, 业务数据主要以多模态文档(如PDF、 扫描件、 文档图片等) 的非结构化格式进行存储, 文档自动化处理对于提高企业生产效率至关重要。 如在供应链 金融领域, 需要从发票、 合同、 税单等电子文档中提取关键有效信息, 快速了解上下游企业 风险状态, 协助核心企业进行供应链管理。 多模态文档信息抽取任务包括从文档提取特定 类别实体, 并输出实体间特定关系, 以key ‑value的形式输出 结构化信息 。 [0003]传统的文档信息抽 取主要通过人工定制规则和模板匹配、 小样本统计学习, 该方 法对少量固定样式的文档有效, 但通用性差, 迁移成本高, 无法适应当前多模态文档类型和 样式繁多的特点。 基于深度学习的方法利用大量未标注电子文档进行自监督预训练, 并利 用多模态技术把文本、 视觉和布局信息进行融合得到文档特征, 最后根据文本框位置按特 定顺序(一般为从上到下、 从左到右)进行序列化, 通过NER技术进行实体识别, 以及对三元 组分类的方式进行关系抽取。 该方法能够学习到不同类型文档的有效特征, 在实体识别任 务性能上有较大提升, 但由于最后通过序列化文本进行实体识别, 对于布局复杂的文档效 果较差(如分栏文档中可能将实体切割), 同时在进 行关系抽取时没有充分利用文本块的空 间关系, 一般关系匹配效果较差 。 [0004]目前主流的多模态文档 信息抽取 方法主要包括以下流 程: [0005]1)利用OCR技 术识别文档中的候选文本 框; [0006]2)通过预训练模型提取候选文本 框的特征, 包括文本特 征、 视觉特征和位置坐标; [0007]3)对2)中提取的不同维度特征, 通过多模态融合技术对候选文本块进行融合编 码, 融合方式包括 最大(平均)池化、 双线性模型, 注意力机制等; [0008]4)根据候选文本框的位置坐标, 按照从上到下, 从左到右的顺序进行序列化, 然后 利用NER技术进行实体识别, 通过对候选文本框两两组合形成的三元组(加入相对位置信 息)分类进行关系抽取。 [0009]现有技术依赖于OC R模型的输出进行序列化, 一般遵循 “从上到下, 从左到右 ”的阅 读原则, 但对于文档中分栏、 文本图片表格混杂的复杂布局, 此时获得的阅读顺序多 数情况 下是错误的, 容易导致 实体被切割以及语义混乱; 同时, 序列化无法捕捉文档中的结构化层 次信息(如表格中表头与单 元格间的关系), 在关系抽取的任务中往 往表现不佳。 [0010]因此, 现有技 术存在缺陷, 需要改进。 发明内容 [0011]本发明所要解决的技术问题是: 提供一种能够有效捕获文档的空间布局信息、 有 效提高语义 准确性, 通用性强的基于图神经网络的多模态文档 信息抽取 方法。说 明 书 1/4 页 3 CN 114419304 A 3

.PDF文档 专利 一种基于图神经网络的多模态文档信息抽取方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于图神经网络的多模态文档信息抽取方法 第 1 页 专利 一种基于图神经网络的多模态文档信息抽取方法 第 2 页 专利 一种基于图神经网络的多模态文档信息抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:12:01上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。