说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111644638.5 (22)申请日 2021.12.2 9 (71)申请人 北京爱知之星科技股份有限公司 地址 100102 北京市朝阳区望京北路9号叶 青大厦D座801室 (72)发明人 陈祖家 赵欢 姜永 夏昌吉  邢振  (74)专利代理 机构 北京棋拾知识产权代理事务 所(普通合伙) 11863 专利代理师 杨雪婷 (51)Int.Cl. G06V 30/146(2022.01) G06V 20/62(2022.01) G06V 10/82(2022.01) G06F 16/532(2019.01)G06F 16/58(2019.01) G06F 40/117(2020.01) G06F 40/169(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文档处理方法和装置、 电子设备和计算机可 读存储介质 (57)摘要 本申请公开了一种文档处理方法和装置、 电 子设备和计算机可读存储介质。 该方法包括: 获 取目标文档; 对图像数据进行识别, 以获得图像 数据的图像信息; 根据图像信息生成图像数据的 标签数据; 将标签数据添加到目标文档中以生成 标注文档。 本申请实施例通过从目标文档中提取 图像数据, 对图像数据进行识别以获取图像信 息, 将获取到的图像信息作为该图像的标签信息 添加到目标文档中, 从而这样处理后的目标文档 中可以包含有图像的信息, 从而当之后用户对这 样处理过的目标文档进行内容搜索时, 就可以通 过目标文档中包含的图像的标签信息而实现低 于其中包含的图像的搜索, 大大地提高了这样的 目标文档的使用效率。 权利要求书1页 说明书8页 附图2页 CN 114898369 A 2022.08.12 CN 114898369 A 1.一种文档处 理方法, 包括: 获取目标文档, 其中, 所述目标文档包 含有至少一个图像数据; 对所述图像数据进行识别, 以获得 所述图像数据的图像信息; 根据所述图像信息生成所述图像数据的标签数据; 将所述标签数据添加到所述目标文档 中以生成标注文档, 其中, 在所述标注文档 中所 述标签数据与所述图像数据关联。 2.根据权利要求1所述的文档处 理方法, 所述方法进一 步包括: 对所述目标文档进行解析, 以获得 具有预定文件结构的待处 理文档。 3.根据权利要求1所述的文档处 理方法, 所述方法进一 步包括: 检测所述目标文档中是否存在图像内容标签。 4.根据权利要求1所述的文档处理方法, 其中, 所述对所述图像数据进行识别包括: 使 用图像识别模型来对所述图像数据进行识别。 5.根据权利要求1所述的文档处理方法, 其中, 所述对所述图像数据进行识别包括: 根 据所述图像数据的类型确定图像识别模型的类型, 并且 使用所确定的类型的图像识别模型来对所述图像数据进行识别。 6.根据权利要求5所述的文档处 理方法, 其中, 所述图像识别模型的类型包括: 手写签名识别模块和印章识别模型。 7.一种文档处 理装置, 包括: 获取模块, 用于获取目标文档, 其中, 所述目标文档包 含有至少一个图像数据; 识别模块, 用于对所述图像数据进行识别, 以获得 所述图像数据的图像信息; 生成模块, 用于根据所述图像信息生成所述图像数据的标签数据; 标注模块, 用于将所述标签数据添加到所述目标文档中以生成标注文档, 其中, 在所述 标注文档中所述标签数据与所述图像数据关联。 8.根据权利要求7 所述的文档处 理装置, 其中, 所述文档处 理装置进一 步包括: 解析模块, 用于对所述目标文档进行解析, 以获得 具有预定文件结构的待处 理文档。 9.一种电子设备, 包括: 存储器, 用于存 储程序; 处理器, 用于运行所述存储器中存储的所述程序, 以执行如权利要求1至6中任一所述 的文档处 理方法。 10.一种计算机可读存储介质, 其上存储有可被处理器执行的计算机程序, 其中, 该程 序被处理器执行时实现如权利要求1至 6中任一所述的文档处 理方法。权 利 要 求 书 1/1 页 2 CN 114898369 A 2文档处理 方法和装置、 电子设备和计算机可 读存储介质 技术领域 [0001]本申请涉及文档 处理技术领域, 尤其涉及一种文档 处理方法和装置、 电子设备和 计算机可读存 储介质。 背景技术 [0002]随着数字技术的发展, 越来越多的文档都采用数字形式进行存储, 从而用户可以 在生活和工作中使用这样的数字形式的电子文档, 而无需再使用纸质文档来进行文字和/ 或图像的记录, 并且用户还可以基于这样的电子文档进 行编辑、 添加批注、 添加电子签名等 传统的纸质文件无法实现的便捷功能。 例如, 现有技术中已经提出了OFD(open  fixed  layout document, 开放版式文档)是我国自主研发, 独立于软件、 硬件、 操作系统、 输出设备 的版式文档格式, 将文字、 图像、 图形等多种数字内容对象按照一定规则进行版面固化呈现 的一种格式。 [0003]当前对OFD文档可以进行阅读、 编辑书签、 文档批注、 编辑附件、 加盖电子签名 、 电 子印章等功能。 但是 由于文档格式限制及阅读器交互较弱等因素 的影响, 目前阅读器只能 对文字信息进行搜索, 在图像没有注释内容标签的情况 下, 往往不能搜索。 [0004]在国产化大潮下, OFD版式文档在运营商无纸化业务单据的应用也日益增加, 为了 保证电信业务的真实有效性, 在运营商生产 环境中, 必须对业务的电子单据进 行稽核, 除了 需要搜索提取文字外, 还需要对业务单据上的电子签名、 盖章等图像信息进行搜索, 所以需 要一种能够便捷地对这样的版式文档中进行搜索的技 术方案。 发明内容 [0005]本申请实施例提供一种文档 处理方法和装置、 电子设备和计算机可读存储介质, 以解决现有技 术中包含图像的文档中缺少图像的文字信息的缺陷。 [0006]为达到上述目的, 本申请实施例提供了一种文档处 理方法, 包括: [0007]获取目标文档, 其中, 所述目标文档包 含有至少一个图像数据; [0008]对所述图像数据进行识别, 以获得 所述图像数据的图像信息; [0009]根据所述图像信息生成所述图像数据的标签数据; [0010]将所述标签数据添加到所述目标文档中以生成标注文档, 其中, 在所述标注文档 中所述标签数据与所述图像数据关联。 [0011]本申请实施例还提供了一种文档处 理装置, 包括: [0012]获取模块, 用于获取目标文档, 其中, 所述目标文档包 含有至少一个图像数据; [0013]识别模块, 用于对所述图像数据进行识别, 以获得 所述图像数据的图像信息; [0014]生成模块, 用于根据所述图像信息生成所述图像数据的标签数据; [0015]标注模块, 用于将所述标签数据添加到所述目标文档中以生成标注文档, 其中, 在 所述标注文档中所述标签数据与所述图像数据关联。 [0016]本申请实施例还提供了一种电子设备, 包括:说 明 书 1/8 页 3 CN 114898369 A 3

.PDF文档 专利 文档处理方法和装置、电子设备和计算机可读存储介质

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文档处理方法和装置、电子设备和计算机可读存储介质 第 1 页 专利 文档处理方法和装置、电子设备和计算机可读存储介质 第 2 页 专利 文档处理方法和装置、电子设备和计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。