专利文档图像的处理方法、装置和存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210552234.1 (22)申请日 2022.05.20 (65)同一申请的已公布的文献号申请公布号 CN 114792423 A (43)申请公布日 2022.07.26 (73)专利权人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人李煜林　曹健健　钦夏孟　章成全　姚锟　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06V 30/414(2022.01) G06N 20/00(2019.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) G06V 10/25(2022.01) G06V 10/82(2022.01)(56)对比文件 CN 112232336 A,2021.01.15 CN 113361247 A,2021.09.07 CN 114120299 A,2022.03.01 CN 113673528 A,2021.1 1.19 CN 113378580 A,2021.09.10 CN 113435203 A,2021.09.24 CN 113468891 A,2021.10.01 CN 110162628 A,2019.08.23 CN 113128415 A,2021.07.16 CN 112149642 A,2020.12.2 9 CN 114356852 A,202 2.04.15 CN 113936128 A,202 2.01.14 US 2021271917 A1,2021.09.02 CN 112232336 A,2021.01.15 符子龙.场景图像中维语文字识别技术研究. 《中国优秀硕士学位论文全文数据库信息科技辑》 .2021,(第08 期), Mengkai Ma等.Residual at tention-based multi-scale script identificati on in scene text ima ges. 《Neurocomputi ng》 .2020, 第421卷审查员唐嘉 (54)发明名称文档图像的处理方法、装置和存储介质 (57)摘要本公开提供了一种文档图像的处理方法、装置和存储介质，涉及人工智能技术领域，具体涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为：在对文档图像进行处理时，确定出文档图像中感兴趣的实体词所在的文本区域的位置信息，并对该文档图像中与该位置信息对应的图像区域进行文字识别，以得到该感兴趣的实体词在该文档图像中所对应的文本内容。由此，直接对感兴趣的实体词在文档图像上所对应的图像区域进行文字识别，以得到感兴趣的实体词在文档图像中所对应的文本内容，降低了从文档图像中获取感兴趣的文本内容的复杂度，并且提升了从文档图像中确定出了感兴趣的文本内容的准确度。权利要求书3页说明书10页附图5页 CN 114792423 B 2022.12.09 CN 114792423 B 1.一种文档图像的处理方法，包括：确定文档图像的图像特征图；确定实体词的文本特征；在所述图像特征图为多个的情况下，按照多个所述图像特征图的通道数从大到小的顺序，对多个所述图像特征图进行排序，以得到排序结果；对所述文本特征和所述排序结果中排序在第一位的图像特征图进行拼接，以得到拼接特征；将所述拼接特征输入到语义表示模型中，以通过所述语义表示模型对所述拼接特征进行语义融合，以得到第一语义特征图；根据所述第一语义特征图和所述排序结果中排序在第二位至最后一位的图像特征图，确定所述文档图像的语义特征图；根据所述语义特征图，确定所述文档图像中的位置信息，其中，所述位置信息用于指示感兴趣的实体词所在的文本区域的位置；根据所述位置信息，从所述文档图像中确定出待识别的图像区域；对所述图像区域进行文字识别，以得到所述实体词在所述文档图像中所对应的文本内容。 2.根据权利要求1所述的方法，其中，所述根据所述第一语义特征图和所述排序结果中排序在第二位至最后一位的图像特征图，确定所述文档图像的语义特征图，包括：从所述第一语义特征图中确定出所述排序结果中排序在第一位的图像特征图所对应的第二语义特征图；按照所述排序结果所指示的排序顺序，将所述第二语义特征图，依次与所述排序结果排序在第二位至最后一位的图像特征图进行融合；获取对所述排序结果中排序在最后一位的图像特征图进行融合后所得到的融合特征图；将所述融合特征图作为所述文档图像的语义特征图。 3.根据权利要求1 ‑2中任一项所述的方法，其中，所述根据所述语义特征图，确定所述文档图像中所述实体词所在的文本区域的位置信息，包括：对所述语义特征图进行上采样，以得到目标语义特征图，其中，所述目标语义特征图的尺寸与所述文档图像的尺寸相同；根据所述目标语义特征图中各个像素点上的语义特征，确定所述目标语义特征图中各个像素点的概率值；获取所述目标语义特征图中概率值大于预设概率阈值的目标像素点；将所述目标像素点在所述目标语义特征图上的位置作为所述位置信息。 4.根据权利要求1所述的方法，其中，所述根据所述位置信息，从所述文档图像中确定出待识别的图像区域，包括：从所述文档图像中，确定出包括所述位置信息的最小外接矩形区域；将所述最小外接矩形区域作为所述图像区域。 5.一种文档图像的处理装置，包括：第一确定模块，用于确定所述文档图像中的位置信息，其中，所述位置信息用于指示感权　利　要　求　书 1/3 页 2 CN 114792423 B 2兴趣的实体词所在的文本区域的位置；第二确定模块，用于根据所述位置信息，从所述文档图像中确定出待识别的图像区域；文字识别模块，用于对所述图像区域进行文字识别，以得到所述实体词在所述文档图像中所对应的文本内容；所述第一确定模块，包括：第一确定子模块，用于根据所述实体词和所述文档图像，确定所述文档图像的语义特征图；第二确定子模块，用于根据所述语义特征图，确定所述文档图像中的所述位置信息；所述第一确定子模块，包括：第一确定单元，用于确定所述文档图像的图像特征图；第二确定单元，用于确定所述实体词的文本特征；生成单元，用于根据所述图像特征图和所述文本特征，生成所述文档图像的语义特征图；在所述图像特征图为多个的情况下，所述生成单元，包括：排序子单元，用于按照多个所述图像特征图的通道数从大到小的顺序，对多个所述图像特征图进行排序，以得到排序结果；拼接子单元，用于对所述文本特征和所述排序结果中排序在第一位的图像特征图进行拼接，以得到拼接特征；语义表示子单元，用于将所述拼接特征输入到语义表示模型中，以通过所述语义表示模型对所述拼接特征进行语义融合，以得到第一语义特征图；确定子单元，用于根据所述第一语义特征图和所述排序结果中排序在第二位至最后一位的图像特征图，确定所述文档图像的语义特征图。 6.根据权利要求5所述的装置，其中，所述确定子单元，具体用于：从所述第一语义特征图中确定出所述排序结果中排序在第一位的图像特征图所对应的第二语义特征图；按照所述排序结果所指示的排序顺序，将所述第二语义特征图，依次与所述排序结果排序在第二位至最后一位的图像特征图进行融合；获取对所述排序结果中排序在最后一位的图像特征图进行融合后所得到的融合特征图；将所述融合特征图作为所述文档图像的语义特征图。 7.根据权利要求5 ‑6中任一项所述的装置，其中，所述第二确定子模块，具体用于：对所述语义特征图进行上采样，以得到目标语义特征图，其中，所述目标语义特征图的尺寸与所述文档图像的尺寸相同；根据所述目标语义特征图中各个像素点上的语义特征，确定所述目标语义特征图中各个像素点的概率值；获取所述目标语义特征图中概率值大于预设概率阈值的目标像素点；将所述目标像素点在所述目标语义特征图上的位置作为所述位置信息。 8.根据权利要求5所述的装置，其中，所述第二确定模块，具体用于：从所述文档图像中，确定出包括所述位置信息的最小外接矩形区域；权　利　要　求　书 2/3 页 3 CN 114792423 B 3

专利 文档图像的处理方法、装置和存储介质

专利文档图像的处理方法、装置和存储介质