(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210533116.6
(22)申请日 2022.05.17
(65)同一申请的已公布的文献号
申请公布号 CN 114663896 A
(43)申请公布日 2022.06.24
(73)专利权人 深圳前海环融联易信息科技 服务
有限公司
地址 518000 广东省深圳市前海深港合作
区前湾一路1号A栋201室
(72)发明人 陈东来
(74)专利代理 机构 深圳市精英创新知识产权代
理有限公司 4 4740
专利代理师 涂年影
(51)Int.Cl.
G06V 30/40(2022.01)G06V 30/148(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06F 40/126(2020.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
(56)对比文件
CN 113065549 A,2021.07.02
CN 112989970 A,2021.0 6.18
CN 110097019 A,2019.08.0 6
US 20212 95822 A1,2021.09.23
US 2009210406 A1,2009.08.20
US 2005160369 A1,20 05.07.21
US 2022121843 A1,202 2.04.21
审查员 杨涛
(54)发明名称
基于图像处理的文档信息抽取方法、 装置、
设备及介质
(57)摘要
本发明公开了基于图像处理的文档信息抽
取方法、 装置、 设备及介质, 方法包括: 对信息抽
取任务的待处理文档图像进行特征编码得到编
码特征信息并进行切分转换得到输入向量集, 将
输入向量集输入多头自注意力神经网络以计算
得到图像权重特征向量, 对信息抽取任务中的任
务信息与图像权重特征向量组合得到组合特征
向量, 将图像权重特征向量与组合特征向量同时
输入解码器进行向量整合解码得到字符编码序
列, 对字符编码序列进行解析得到与信息抽取任
务对应的文档信息。 通过上述方法, 将图像分析
识别处理与文本信息抽取进行结合, 通过调整神
经网络及信息抽取任务可用于对各种文档图像
进行文档信息抽取, 大幅提高了对文档信息进行
抽取的效率及灵活性。
权利要求书3页 说明书11页 附图4页
CN 114663896 B
2022.08.23
CN 114663896 B
1.一种基于图像处 理的文档 信息抽取 方法, 其特 征在于, 所述方法包括:
接收所输入的信 息抽取任务, 对所述信 息抽取任务中的待处理文档图像进行特征编码
处理得到对应的编码特 征信息;
根据所述待处理文档图像的像素坐标位置对所述编码特征信 息进行切分转换, 以得到
由多个编码特 征向量组成的输入向量 集;
将所述输入向量集输入至预置的多头自注意力神经网络, 以计算得到对应的图像权重
特征向量;
对所述信息抽取任务中的任务信息与所述图像权重特征向量组合以得到组合特征向
量;
将所述图像权重特征向量及所述组合特征向量同时输入至预置的解码器, 以进行向量
整合解码得到对应的字符编码序列;
根据预置的编码解析规则对所述字符编码序列进行解析, 以得到与 所述信息抽取任务
对应的文档 信息;
对所述任务信息与所述图像权重特征向量组合, 包括: 将所述任务信息中各位置标识
添加至相应的所述图像权 重特征向量中。
2.根据权利要求1所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述对所述
待处理文档图像进行 特征编码处 理得到对应的编码特 征信息, 包括:
根据预置图像转换规则将所述待处 理文档图像转换为对应的张量特 征信息;
根据预置的编码神经网络对所述张量特征信 息进行编码处理, 以得到对应编码特征信
息。
3.根据权利要求2所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述根据 预
置的编码神经网络对所述张量特 征信息进行编码处 理, 以得到对应编码特 征信息, 包括:
根据所述编码神经网络 中的多个卷积层 分别对所述张量特征信 息进行卷积处理, 以得
到多个所述卷积层分别对应的卷积特 征向量;
根据所述编码神经网络中的仿射变换网络对多个所述卷积层的卷积特征向量分别进
行仿射变换, 以得到与所述张量特 征信息对应的编码特 征信息。
4.根据权利要求1所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述根据 所
述待处理文档图像的像素坐标位置对所述编码特征信息进 行切分转换, 以得到由多个编码
特征向量组成的输入向量 集, 包括:
根据所述待处理文档图像的像素坐标位置在所述编码特征信息的每一特征编码中添
加对应的像素坐标位置;
根据预置的切分规则及所述编码特征信息中所添加的像素坐标位置对所述编码特征
信息进行切分以得到多个编码特 征块;
将每一所述编码特征块拉平为编码特征向量并组合以得到与所述编码特征信息对应
的输入向量 集。
5.根据权利要求1所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述将所述
输入向量集输入至预置的多头 自注意力神经网络, 以计算得到对应的图像权重特征向量,
包括:
将所述输入向量集中所包含的编码特征向量分别输入所述多头自注意力神经网络的权 利 要 求 书 1/3 页
2
CN 114663896 B
2多个特征编码层分别进行编码计算, 得到与每一所述特 征编码层对应的多头向量矩阵;
根据所述多头自注意力神经网络的特征组合层对每一所述特征编码层的多头向量矩
阵进行特征组合, 以得到对应的图像权 重特征向量。
6.根据权利要求1所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述将所述
图像权重特征向量及所述组合特征向量同时输入至预置的解码器, 以进 行向量整合解码得
到对应的字符编码序列, 包括:
将所述组合特征向量输入所述解码器的第 一多头自注意力神经网络, 以计算得到对应
的第一权 重特征向量;
根据所述第一权重特征向量及所述解码器的第二多头自注意力神经网络对所述图像
权重特征向量进行 特征加权融合, 以得到与所述图像权 重特征向量对应的融合特 征向量;
根据所述解码器的特征解码层对所述融合特征向量进行解码, 以得到对应的字符编码
序列。
7.根据权利要求1所述的基于图像处理 的文档信 息抽取方法, 其特征在于, 所述任务信
息中包括对所述待处理文档图像中待抽取的文档信息进行定位的解析位置, 所述根据预置
的编码解析规则对所述字符编 码序列进行解析, 以得到与所述信息抽取任务对应的文档信
息, 包括:
根据所述编码解析规则对所述字符编码序列进行解析, 以还原得到与 所述字符编码序
列对应的解析字符;
根据所述解析位置将所述解析字符添加至所述任务信息中与所述解析位置对应的区
域, 对所述 解析字符与所述任务信息组合得到对应的文档 信息。
8.一种基于图像处 理的文档 信息抽取装置, 其特 征在于, 所述装置包括:
编码特征信息获取单元, 用于接收所输入的信息抽取任务, 对所述信息抽取任务中的
待处理文档图像进行 特征编码处 理得到对应的编码特 征信息;
输入向量集获取单元, 用于根据所述待处理文档图像的像素坐标位置对所述编码特征
信息进行切分转换, 以得到由多个编码特 征向量组成的输入向量 集;
图像权重特征向量获取单元, 用于将所述输入向量集输入至预置的多头自注意力神经
网络, 以计算得到对应的图像权 重特征向量;
组合特征向量获取单元, 用于对所述信 息抽取任务中的任务信 息与所述图像权重特征
向量组合以得到组合特 征向量;
字符编码序列获取单元, 用于将所述图像权重特征向量及所述组合特征向量同时输入
至预置的解码器, 以进行向量整合 解码得到对应的字符编码序列;
文档信息获取单元, 用于根据预置的编码解析规则对所述字符编码序列进行解析, 以
得到与所述信息抽取任务对应的文档 信息;
对所述任务信息与所述图像权重特征向量组合, 包括: 将所述任务信息中各位置标识
添加至相应的所述图像权 重特征向量中。
9.一种计算机设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7
中任一项所述的基于图像处 理的文档 信息抽取 方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程权 利 要 求 书 2/3 页
3
CN 114663896 B
3
专利 基于图像处理的文档信息抽取方法、装置、设备及介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:48:41上传分享