说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210619581.1 (22)申请日 2022.05.30 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 王文瑾 黄正杰 罗斌 彭启明  尹维冲 冯仕堃 黄世维 何径舟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06V 30/414(2022.01) G06F 40/30(2020.01) (54)发明名称 文档图像的处 理方法、 装置及电子设备 (57)摘要 本公开提供了一种文档图像的处理方法、 装 置及电子设备, 涉及突出处理技术领域, 尤其涉 人工智能、 自然语义处理等技术领域。 具体实现 方案为: 获取待处理的文档图像; 获取文档图像 中的多粒度文本结点、 多粒度视觉结点和各结点 的结点信息; 根据多粒度文本结点、 多粒度视觉 结点和各结点的结点信息, 构建多粒度多模态文 档图; 根据多粒度多模态文档图、 多粒度文本结 点的结点信息和多粒度视觉结点的结点信息, 确 定文档图像的多粒度语义特征信息。 本方案可以 结合不同粒度元素, 使获得语义特征信息更加丰 富全面。 权利要求书4页 说明书19页 附图9页 CN 114792424 A 2022.07.26 CN 114792424 A 1.一种文档图像的处 理方法, 包括: 获取待处 理的文档图像; 获取所述文档图像中的多粒度文本结点、 多粒度视 觉结点和各 结点的结点信息; 根据所述多粒度文本结点、 多粒度视觉结点和各结点的结点信息, 构建多粒度多模态 文档图; 根据所述多粒度多模态文档图、 所述多粒度文本结点的结点信息、 和所述多粒度视觉 结点的结点信息, 确定所述文档图像的多粒度语义特 征信息。 2.根据权利要求1所述的方法, 其中, 所述获取所述文档图像中的多粒度文本结点、 多 粒度视觉结点和各 结点的结点信息, 包括: 将所述文档图像以文字为粒度进行文本识别, 获得细粒度文本结点及其结点信息; 将所述文档图像以文本段为粒度进行文本识别, 获得粗粒度文本结点及其结点信息; 将所述文档图像进行图像切分, 获得细粒度视 觉结点及其结点信息; 将所述文档图像进行显著性视 觉区域识别, 获得粗粒度视 觉结点及其结点信息 。 3.根据权利要求2所述的方法, 其中, 所述根据所述多粒度文本结点、 多粒度视觉结点 和各结点的结点信息, 构建多粒度多模态文档图, 包括: 根据所述细粒度文本结点及其结点信 息和所述细粒度视觉结点及其结点信 息, 在所有 细粒度结点之间构建两 两互连的全连接细粒度边; 根据所述粗粒度文本结点及其结点信 息和所述粗粒度视觉结点及其结点信 息, 在所有 粗粒度结点之间构建两 两互连的全连接粗粒度边; 根据所述细粒度文本结点的结点信 息和所述粗粒度文本结点的结点信 息, 构建所述细 粒度文本结点与其所属的粗粒度文本结点之间的第一 跨粒度边; 根据所述细粒度视觉结点的结点信 息和所述粗粒度视觉结点的结点信 息, 构建所述细 粒度视觉结点与其所属粗粒度视 觉结点之间的第二 跨粒度边; 根据所述细粒度文本结点、 所述粗粒度文本结点、 所述细粒度视觉结点、 所述粗粒度视 觉结点、 所述全连接细粒度边、 所述全连接粗粒度边、 所述第一跨粒度边和所述第二跨粒度 边, 获得所述多粒度多模态文档图。 4.根据权利要求3所述的方法, 其中, 所述根据所述多粒度多模态文档图、 所述多粒度 文本结点的结点信息和所述多 粒度视觉结点的结点信息, 确定所述文档图像的多 粒度语义 特征信息, 包括: 基于所述全连接细粒度边, 对所述细粒度文本结点的结点信 息和所述细粒度视觉结点 的结点信息 分别进行编 码, 获取所述细粒度文本结点的语义特征信息和所述细粒度视觉结 点的语义特 征信息; 根据所述第一跨粒度边、 所述第二跨粒度边、 所述细粒度文本结点的语义特征信息和 所述细粒度视觉结点的语义特征信息, 获取所述粗粒度文本节点的第一语义特征信息和所 述粗粒度视 觉结点的第一语义特 征信息; 基于所述全连接粗粒度边, 根据所述粗粒度文本节点的第 一语义特征信 息和所述粗粒 度视觉结点的第一语义特征信息, 获取所述粗粒度文本结点的第二语义特征信息和所述粗 粒度视觉结点的第二语义特 征信息; 根据所述第一跨粒度边、 所述第二跨粒度边、 所述粗粒度文本结点的第二语义特征信权 利 要 求 书 1/4 页 2 CN 114792424 A 2息、 所述粗粒度视觉结点的第二语义特征信息、 所述细粒度文本结点的语义特征信息和所 述细粒度视觉结点的语义特征信息, 获取所述细粒度文本结点的目标语义特征信息和所述 细粒度视 觉结点的目标语义特 征信息; 将所述细粒度文本结点的目标语义特征信息和所述细粒度视觉结点的目标语义特征 信息, 作为所述文档图像对应的多粒度语义特 征信息。 5.根据权利要求4所述的方法, 其中, 所述根据 所述第一跨粒度边、 所述第 二跨粒度边、 所述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息, 获取所述粗 粒度文本的第一语义特 征信息和所述 粗粒度视 觉结点的第一语义特 征信息, 包括: 基于所述第一跨粒度边, 确定与所述粗粒度文本结点连接的目标细粒度文本结点, 并 将所述目标细粒度文本结点的语义特征信息进行聚合, 获得所述粗粒度文本结点的第一语 义特征信息; 基于所述第二跨粒度边, 确定与所述粗粒度视觉结点连接的目标细粒度视觉结点, 并 将所述目标细粒度视觉结点的语义特征信息进行聚合, 获得所述粗粒度视觉结点的第一语 义特征信息。 6.根据权利要求4所述的方法, 其中, 所述根据 所述第一跨粒度边、 所述第 二跨粒度边、 所述粗粒度文本结点的第二语义特征信息、 所述粗粒度视觉结点的第二语义特征信息、 所 述细粒度文本结点的语义特征信息和所述细粒度视觉结点的语义特征信息, 获取所述细粒 度文本结点的目标语义特 征信息和所述细粒度视 觉结点的目标语义特 征信息, 包括: 基于所述第一跨粒度边, 确定所述细粒度文本结点所属的目标粗粒度文本结点, 并将 所述细粒度文本结点的语义特征信息和所述目标粗粒度文本结点的第二语义特征信息进 行融合处 理, 获得所述细粒度文本结点的目标语义特 征信息; 基于所述第二跨粒度边, 确定所述细粒度视觉结点所属的目标粗粒度视觉结点, 并将 所述细粒度视觉结点的语义特征信息和所述目标粗粒度视觉结点的第二语义特征信息进 行融合处 理, 获得所述细粒度视 觉结点的目标语义特 征信息。 7.根据权利要求 4所述的方法, 还 包括: 确定所述 粗粒度文本结点对应的文本段中是否存在实体; 响应于所述文本段中存在实体, 确定所述文本段中的实体 类型; 将所述文本段中的实体类型对应的特征信息增加到所述粗粒度文本结点的第一语义 特征信息中, 获得 所述粗粒度文本结点的增强语义特 征信息; 其中, 所述基于所述全连接粗粒度边, 根据所述粗粒度文本结点的第一语义特征信息 和所述粗粒度视觉结点的第一语义特征信息, 获取所述粗粒度文本结点的第二语义特征信 息和所述 粗粒度视 觉结点的第二语义特 征信息, 包括: 基于所述全连接粗粒度边, 根据所述粗粒度文本结点的增强语义特征信 息和所述粗粒 度视觉结点的第一语义特征信息, 获取所述粗粒度文本结点的第二语义特征信息和所述粗 粒度视觉结点的第二语义特 征信息。 8.一种文档图像的处 理装置, 包括: 第一获取模块, 用于获取待处 理的文档图像; 第二获取模块, 用于获取所述文档图像中的多粒度文本结点、 多粒度视觉结点和各结 点的结点信息;权 利 要 求 书 2/4 页 3 CN 114792424 A 3

.PDF文档 专利 文档图像的处理方法、装置及电子设备

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档图像的处理方法、装置及电子设备 第 1 页 专利 文档图像的处理方法、装置及电子设备 第 2 页 专利 文档图像的处理方法、装置及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:44上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。