专利文档图像的处理方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210619581.1 (22)申请日 2022.05.30 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人王文瑾　黄正杰　罗斌　彭启明　尹维冲　冯仕堃　黄世维　何径舟　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师罗岚 (51)Int.Cl. G06V 30/414(2022.01) G06F 40/30(2020.01) (54)发明名称文档图像的处理方法、装置及电子设备 (57)摘要本公开提供了一种文档图像的处理方法、装置及电子设备，涉及突出处理技术领域，尤其涉人工智能、自然语义处理等技术领域。具体实现方案为：获取待处理的文档图像；获取文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；根据多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；根据多粒度多模态文档图、多粒度文本结点的结点信息和多粒度视觉结点的结点信息，确定文档图像的多粒度语义特征信息。本方案可以结合不同粒度元素，使获得语义特征信息更加丰富全面。权利要求书4页说明书19页附图9页 CN 114792424 A 2022.07.26 CN 114792424 A 1.一种文档图像的处理方法，包括：获取待处理的文档图像；获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图；根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息、和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息。 2.根据权利要求1所述的方法，其中，所述获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息，包括：将所述文档图像以文字为粒度进行文本识别，获得细粒度文本结点及其结点信息；将所述文档图像以文本段为粒度进行文本识别，获得粗粒度文本结点及其结点信息；将所述文档图像进行图像切分，获得细粒度视觉结点及其结点信息；将所述文档图像进行显著性视觉区域识别，获得粗粒度视觉结点及其结点信息。 3.根据权利要求2所述的方法，其中，所述根据所述多粒度文本结点、多粒度视觉结点和各结点的结点信息，构建多粒度多模态文档图，包括：根据所述细粒度文本结点及其结点信息和所述细粒度视觉结点及其结点信息，在所有细粒度结点之间构建两两互连的全连接细粒度边；根据所述粗粒度文本结点及其结点信息和所述粗粒度视觉结点及其结点信息，在所有粗粒度结点之间构建两两互连的全连接粗粒度边；根据所述细粒度文本结点的结点信息和所述粗粒度文本结点的结点信息，构建所述细粒度文本结点与其所属的粗粒度文本结点之间的第一跨粒度边；根据所述细粒度视觉结点的结点信息和所述粗粒度视觉结点的结点信息，构建所述细粒度视觉结点与其所属粗粒度视觉结点之间的第二跨粒度边；根据所述细粒度文本结点、所述粗粒度文本结点、所述细粒度视觉结点、所述粗粒度视觉结点、所述全连接细粒度边、所述全连接粗粒度边、所述第一跨粒度边和所述第二跨粒度边，获得所述多粒度多模态文档图。 4.根据权利要求3所述的方法，其中，所述根据所述多粒度多模态文档图、所述多粒度文本结点的结点信息和所述多粒度视觉结点的结点信息，确定所述文档图像的多粒度语义特征信息，包括：基于所述全连接细粒度边，对所述细粒度文本结点的结点信息和所述细粒度视觉结点的结点信息分别进行编码，获取所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息；根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息；基于所述全连接粗粒度边，根据所述粗粒度文本节点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息；根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信权　利　要　求　书 1/4 页 2 CN 114792424 A 2息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息；将所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，作为所述文档图像对应的多粒度语义特征信息。 5.根据权利要求4所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述粗粒度文本的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，包括：基于所述第一跨粒度边，确定与所述粗粒度文本结点连接的目标细粒度文本结点，并将所述目标细粒度文本结点的语义特征信息进行聚合，获得所述粗粒度文本结点的第一语义特征信息；基于所述第二跨粒度边，确定与所述粗粒度视觉结点连接的目标细粒度视觉结点，并将所述目标细粒度视觉结点的语义特征信息进行聚合，获得所述粗粒度视觉结点的第一语义特征信息。 6.根据权利要求4所述的方法，其中，所述根据所述第一跨粒度边、所述第二跨粒度边、所述粗粒度文本结点的第二语义特征信息、所述粗粒度视觉结点的第二语义特征信息、所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息，获取所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征信息，包括：基于所述第一跨粒度边，确定所述细粒度文本结点所属的目标粗粒度文本结点，并将所述细粒度文本结点的语义特征信息和所述目标粗粒度文本结点的第二语义特征信息进行融合处理，获得所述细粒度文本结点的目标语义特征信息；基于所述第二跨粒度边，确定所述细粒度视觉结点所属的目标粗粒度视觉结点，并将所述细粒度视觉结点的语义特征信息和所述目标粗粒度视觉结点的第二语义特征信息进行融合处理，获得所述细粒度视觉结点的目标语义特征信息。 7.根据权利要求 4所述的方法，还包括：确定所述粗粒度文本结点对应的文本段中是否存在实体；响应于所述文本段中存在实体，确定所述文本段中的实体类型；将所述文本段中的实体类型对应的特征信息增加到所述粗粒度文本结点的第一语义特征信息中，获得所述粗粒度文本结点的增强语义特征信息；其中，所述基于所述全连接粗粒度边，根据所述粗粒度文本结点的第一语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息，包括：基于所述全连接粗粒度边，根据所述粗粒度文本结点的增强语义特征信息和所述粗粒度视觉结点的第一语义特征信息，获取所述粗粒度文本结点的第二语义特征信息和所述粗粒度视觉结点的第二语义特征信息。 8.一种文档图像的处理装置，包括：第一获取模块，用于获取待处理的文档图像；第二获取模块，用于获取所述文档图像中的多粒度文本结点、多粒度视觉结点和各结点的结点信息；权　利　要　求　书 2/4 页 3 CN 114792424 A 3

专利 文档图像的处理方法、装置及电子设备

专利文档图像的处理方法、装置及电子设备