说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210731000.3 (22)申请日 2022.06.24 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 陈禹燊 李硕 岳洪达 许海洋  王艺 韩光耀  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 高艳红 (51)Int.Cl. G06Q 10/10(2012.01) G06F 16/22(2019.01) G06F 40/284(2020.01) G06F 40/289(2020.01)G06F 40/30(2020.01) G06V 30/412(2022.01) G06V 30/418(2022.01) (54)发明名称 一种业务文档的审核方法、 装置、 设备及存 储介质 (57)摘要 本公开提供了一种业务文档的审核 方法、 装 置、 设备及存储介质, 涉及图像处理技术领域, 尤 其涉及人工智能、 计算机视觉和 智能金融技术领 域。 具体实现方案为: 获取至少两种业务文档的 业务文档图像; 其中, 所述至少两种业务文档均 与目标业务内容关联, 且属于不同文档类型; 根 据不同文档类型对应的信息提取方式, 从对应文 档类型的业务文档图像中提取所述目标业务内 容的关键信息; 根据所提取的关键信息, 对所述 至少两种业务文档进行审核。 本方案能够快速且 精准的完成对不同文档类型的业 务文档的审核。 权利要求书5页 说明书23页 附图16页 CN 115130989 A 2022.09.30 CN 115130989 A 1.一种业 务文档的审核方法, 包括: 获取至少两种业务文档的业务文档图像; 其中, 所述至少两种业务文档均与目标业务 内容关联, 且属于不同文档类型; 根据不同文档类型对应的信 息提取方式, 从对应文档类型的业务文档图像中提取所述 目标业务内容的关键信息; 根据所提取的关键信息, 对所述至少两种业 务文档进行审核。 2.根据权利要求1所述的方法, 其中, 所述根据不同文档类型对应的信息提取方式, 从 对应文档类型的业 务文档图像中提取 所述目标业 务内容的关键信息, 包括: 在所述文档类型为文本类型的情况下, 根据预设间隔符、 文档提取字段和所述文本类 型的业务文档图像中的文本信息, 构建输入序列; 通过文本 图像感知模型, 根据所述输入序列, 确定所述文档提取字段对应的抽取起始 位置, 以及所述抽取起始位置的置信度; 根据所述抽取起始位置和所述抽取起始位置的置信度, 确定所述文档提取字段对应的 抽取信息, 以及所述抽取信息的置信度; 根据所述文档提取字段对应的抽取信息, 以及所述抽取信息的置信度, 确定所述文本 类型的业 务文档图像中所述目标业 务内容的关键信息 。 3.根据权利要求2所述的方法, 其中, 所述根据预设间隔符、 文档提取字段和所述文本 类型的业 务文档图像中的文本信息, 构建输入序列, 包括: 对所述文本类型的业务文档图像 中的文本信 息进行预处理, 得到预处理文本; 其中, 所 述预处理包括: 清洗处 理、 符号替换处理, 以及格式转换处 理中的至少一种; 根据所述预处 理文本、 预设间隔符和文档提取字段, 构建输入序列。 4.根据权利要求1所述的方法, 其中, 所述根据不同文档类型对应的信息提取方式, 从 对应文档类型的业 务文档图像中提取 所述目标业 务内容的关键信息, 包括: 在所述文档类型为表格类型的情况下, 对所述表格类型的业务文档图像进行分块, 得 到图像块序列, 并确定所述图像块序列中图像块的图像特征、 所述图像块在所述业务文档 图像中的块 位置, 以及所述图像块在所述图像块序列中的块序号; 对所述业务文档图像中的文本信息进行词量化处理, 得到词序列, 并确定所述词序列 中量化词的词特征、 所述量化词在所述业务文档图像中的词位置, 以及所述量化词在所述 词序列中的词序号; 根据所述图像块序列中图像块的图像特征、 块位置和块序号, 以及所述词序列中量化 词的词特 征、 词位置和词序号, 确定模型输入特 征; 通过表格图像感知模型, 根据所述模型输入特征, 从所述表格类型的业务文档图像中 提取所述目标业 务内容的关键信息 。 5.根据权利要求1所述的方法, 其中, 所述根据不同文档类型对应的信息提取方式, 从 对应文档类型的业 务文档图像中提取 所述目标业 务内容的关键信息, 包括: 在所述文档类型为表格类型的情况下, 通过表格图像感知模型, 从所述表格类型的业 务文档图像中提取 所述目标业 务内容的第一 候选信息; 根据结构化信 息抽取逻辑, 从所述表格类型的业务文档图像中提取所述目标业务内容 的第二候选信息;权 利 要 求 书 1/5 页 2 CN 115130989 A 2根据所述第 一候选信 息和所述第 二候选信 息, 确定所述表格类型的业务文档图像 中所 述目标业 务内容的关键信息 。 6.根据权利要求1所述的方法, 其中, 所述根据所提取的关键信息, 对所述至少两种业 务文档进行审核, 包括: 根据所提取的关键信 息对应的业务文档图像和文档提取字段, 将所提取的关键信 息划 分为至少一个信息对, 其中, 同一信息对中的关键信息对应的文档提取字段的语义相同, 且 取自不同文档类型的业 务文档图像; 根据所述信息对 对应的文档提取字段, 为所述信息对确定目标审核规则; 根据所述信息对对应的目标审核规则, 对所述信息对中的关键信息进行一致性审核, 并根据审核结果, 确定所述至少两种业 务文档的审核结果。 7.根据权利要求6所述的方法, 其中, 所述根据所述信息对对应的文档提取字段, 为所 述信息对确定目标审核规则, 包括如下至少一项: 在所述信 息对对应的文档提取字段的信 息表达方式唯一的情况下, 所述信 息对的目标 审核规则为字符一 致性审核; 在所述信 息对对应的文档提取字段的信 息表达方式不唯一的情况下, 所述信 息对的目 标审核规则为语义相似度审核; 在所述信 息对对应的文档提取字段表征数值信 息的情况下, 所述信 息对的目标审核规 则为数值字符一 致性审核; 在所述信 息对对应的文档提取字段表征 日期信息的情况下, 所述信 息对的目标审核规 则为日期字符一 致性审核。 8.根据权利要求1所述的方法, 其中, 所述根据所提取的关键信息, 对所述至少两种业 务文档进行审核, 包括: 对至少两种业 务文档图像进行印章识别, 得到印章识别结果; 根据所述印章识别结果和所提取的关键信息, 对所述至少两种业 务文档进行审核。 9.根据权利要求1 ‑8中任一项所述的方法, 还 包括: 通过可视化界面展示所提取的关键信 息、 所述至少两种业务文档的业务文档图像和审 核结果。 10.根据权利要求9所述的方法, 其中, 通过可视化界面展示至少两种业务文档的业务 文档图像, 包括: 确定每一种业 务文档的业 务文档图像的展示 顺序; 按照所述展示 顺序, 在可视化界面中展示每一种业 务文档的业 务文档图像。 11.根据权利要求9所述的方法, 其中, 通过可视化界面展示至少两种业务文档的业务 文档图像, 包括: 根据所提取的关键信 息对应的业务文档图像和起始位置, 在所述至少两种业务文档的 业务文档图像中标注关键信息的提取位置, 并将标注后的业务文档图像展示在可视化界面 中。 12.根据权利要求11所述的方法, 其中, 所述根据 所提取的关键信 息对应的业务文档图 像和起始位置, 在所述至少 两种业务文档的业务文档图像中标注关键信息的提取位置, 包 括:权 利 要 求 书 2/5 页 3 CN 115130989 A 3

.PDF文档 专利 一种业务文档的审核方法、装置、设备及存储介质

文档预览
中文文档 45 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共45页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种业务文档的审核方法、装置、设备及存储介质 第 1 页 专利 一种业务文档的审核方法、装置、设备及存储介质 第 2 页 专利 一种业务文档的审核方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:06:51上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。