说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210552234.1 (22)申请日 2022.05.20 (65)同一申请的已公布的文献号 申请公布号 CN 114792423 A (43)申请公布日 2022.07.26 (73)专利权人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 李煜林 曹健健 钦夏孟 章成全  姚锟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 30/414(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06V 10/25(2022.01) G06V 10/82(2022.01)(56)对比文件 CN 112232336 A,2021.01.15 CN 113361247 A,2021.09.07 CN 114120299 A,2022.03.01 CN 113673528 A,2021.1 1.19 CN 113378580 A,2021.09.10 CN 113435203 A,2021.09.24 CN 113468891 A,2021.10.01 CN 110162628 A,2019.08.23 CN 113128415 A,2021.07.16 CN 112149642 A,2020.12.2 9 CN 114356852 A,202 2.04.15 CN 113936128 A,202 2.01.14 US 2021271917 A1,2021.09.02 CN 112232336 A,2021.01.15 符子龙.场景图像中维语文字识别技 术研 究. 《中国优秀硕士学位 论文全文数据库 信息科 技辑》 .2021,(第08 期), Mengkai Ma等.Residual at tention-based multi-scale script identificati on in scene text ima ges. 《Neurocomputi ng》 .2020, 第421卷 审查员 唐嘉 (54)发明名称 文档图像的处 理方法、 装置和存 储介质 (57)摘要 本公开提供了一种文档图像的处理方法、 装 置和存储介质, 涉及人工智能技术领域, 具体涉 及计算机视觉、 图像处理、 深度学习等技术领域。 具体实现方案为: 在对文档图像进行处理时, 确 定出文档图像中感兴趣的实体词所在的文本区 域的位置信息, 并对该文档图像中与该位置信息 对应的图像区域进行文字识别, 以得到该感兴趣 的实体词在该文档图像中所对应的文本内容。 由 此, 直接对感兴趣的实体词在 文档图像上所对应 的图像区域进行文字识别, 以得到感兴趣的实体 词在文档图像中所对应的文本内容, 降低了从文档图像中获取感兴趣的文本内容的复杂 度, 并且 提升了从文档图像中确定出了感兴趣的文本内 容的准确度。 权利要求书3页 说明书10页 附图5页 CN 114792423 B 2022.12.09 CN 114792423 B 1.一种文档图像的处 理方法, 包括: 确定文档图像的图像特 征图; 确定实体词的文本特 征; 在所述图像特征图为多个的情况下, 按照多个所述图像特征图的通道数从大到小的顺 序, 对多个所述图像特 征图进行排序, 以得到排序结果; 对所述文本特征和所述排序 结果中排序在第 一位的图像特征图进行拼接, 以得到拼接 特征; 将所述拼接特征输入到语义表示模型中, 以通过所述语义表示模型对所述拼接特征进 行语义融合, 以得到第一语义特 征图; 根据所述第 一语义特征图和所述排序 结果中排序在第 二位至最后 一位的图像特征图, 确定所述文档图像的语义特 征图; 根据所述语义特征图, 确定所述文档图像中的位置信息, 其中, 所述位置信息用于指示 感兴趣的实体词所在的文本区域的位置; 根据所述 位置信息, 从所述文档图像中确定出待识别的图像区域; 对所述图像区域进行文字识别, 以得到所述实体词在所述文档图像中所对应的文本 内 容。 2.根据权利要求1所述的方法, 其中, 所述根据所述第 一语义特征图和所述排序 结果中 排序在第二 位至最后一 位的图像特 征图, 确定所述文档图像的语义特 征图, 包括: 从所述第一语义特征图中确定出所述排序结果中排序在第一位的图像特征图所对应 的第二语义特 征图; 按照所述排序结果所指示的排序顺序, 将所述第二语义特征图, 依次与所述排序结果 排序在第二 位至最后一 位的图像特 征图进行融合; 获取对所述排序结果中排序在最后一位的图像特征图进行融合后所得到的融合特征 图; 将所述融合特 征图作为所述文档图像的语义特 征图。 3.根据权利要求1 ‑2中任一项所述的方法, 其中, 所述根据所述语义特征图, 确定所述 文档图像中所述实体词所在的文本区域的位置信息, 包括: 对所述语义特征图进行上采样, 以得到目标语义特征图, 其中, 所述目标语义特征图的 尺寸与所述文档图像的尺寸相同; 根据所述目标语义特征图中各个像素点上的语义特征, 确定所述目标语义特征图中各 个像素点的概 率值; 获取所述目标语义特 征图中概 率值大于预设概 率阈值的目标像素点; 将所述目标像素点在所述目标语义特 征图上的位置作为所述 位置信息 。 4.根据权利要求1所述的方法, 其中, 所述根据所述位置信息, 从所述文档图像中确定 出待识别的图像区域, 包括: 从所述文档图像中, 确定出包括所述 位置信息的最小外 接矩形区域; 将所述最小外接矩形区域作为所述图像区域。 5.一种文档图像的处 理装置, 包括: 第一确定模块, 用于确定所述文档图像中的位置信息, 其中, 所述位置信息用于指示感权 利 要 求 书 1/3 页 2 CN 114792423 B 2兴趣的实体词所在的文本区域的位置; 第二确定模块, 用于根据所述 位置信息, 从所述文档图像中确定出待识别的图像区域; 文字识别模块, 用于对所述图像区域进行文字识别, 以得到所述实体词在所述文档图 像中所对应的文本内容; 所述第一确定模块, 包括: 第一确定子模块, 用于根据所述实体词和所述文档图像, 确定所述文档图像的语义特 征图; 第二确定 子模块, 用于根据所述语义特 征图, 确定所述文档图像中的所述 位置信息; 所述第一确定 子模块, 包括: 第一确定单 元, 用于确定所述文档图像的图像特 征图; 第二确定单 元, 用于确定所述实体词的文本特 征; 生成单元, 用于根据所述图像特征图和所述文本特征, 生成所述文档图像的语义特征 图; 在所述图像特 征图为多个的情况 下, 所述生成单元, 包括: 排序子单元, 用于按照多个所述图像特征图的通道数从大到小的顺序, 对多个所述图 像特征图进行排序, 以得到排序结果; 拼接子单元, 用于对所述文本特征和所述排序结果中排序在第 一位的图像特征图进行 拼接, 以得到拼接特 征; 语义表示子单元, 用于将所述拼接特征输入到语义表示模型中, 以通过所述语义表示 模型对所述 拼接特征进行语义融合, 以得到第一语义特 征图; 确定子单元, 用于根据 所述第一语义特征图和所述排序 结果中排序在第 二位至最后一 位的图像特 征图, 确定所述文档图像的语义特 征图。 6.根据权利要求5所述的装置, 其中, 所述确定 子单元, 具体用于: 从所述第一语义特征图中确定出所述排序结果中排序在第一位的图像特征图所对应 的第二语义特 征图; 按照所述排序结果所指示的排序顺序, 将所述第二语义特征图, 依次与所述排序结果 排序在第二 位至最后一 位的图像特 征图进行融合; 获取对所述排序结果中排序在最后一位的图像特征图进行融合后所得到的融合特征 图; 将所述融合特 征图作为所述文档图像的语义特 征图。 7.根据权利要求5 ‑6中任一项所述的装置, 其中, 所述第二确定 子模块, 具体用于: 对所述语义特征图进行上采样, 以得到目标语义特征图, 其中, 所述目标语义特征图的 尺寸与所述文档图像的尺寸相同; 根据所述目标语义特征图中各个像素点上的语义特征, 确定所述目标语义特征图中各 个像素点的概 率值; 获取所述目标语义特 征图中概 率值大于预设概 率阈值的目标像素点; 将所述目标像素点在所述目标语义特 征图上的位置作为所述 位置信息 。 8.根据权利要求5所述的装置, 其中, 所述第二确定模块, 具体用于: 从所述文档图像中, 确定出包括所述 位置信息的最小外 接矩形区域;权 利 要 求 书 2/3 页 3 CN 114792423 B 3

.PDF文档 专利 文档图像的处理方法、装置和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档图像的处理方法、装置和存储介质 第 1 页 专利 文档图像的处理方法、装置和存储介质 第 2 页 专利 文档图像的处理方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。