说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210800979.5 (22)申请日 2022.07.08 (71)申请人 上海来也伯特网络科技有限公司 地址 200030 上海市徐汇区乐 山路33号3幢 138室 申请人 来也科技 (北京) 有限公司 (72)发明人 岳毅 翁嘉颀 陈林平  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 孟洋 (51)Int.Cl. G06V 30/148(2022.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/232(2020.01)G06F 40/194(2020.01) (54)发明名称 文本处理方法、 装置、 电子设备及存 储介质 (57)摘要 本公开提出一种文本处理方法、 装置、 电子 设备及存储介质, 该方法包括: 获取初始文本, 其 中, 初始文本是对图像识别得到; 确定与初始文 本对应的文本分类特征, 其中, 文本分类特征描 述文本处理信息; 根据文本处理信息处理初始文 本, 得到目标文本。 通过本公开, 能够在基于图像 识别得到文本之后, 基于与文本对应的文本分类 特征对所识别的文本进行个性化的优化处理, 从 而能够有效提升基于图像的文本识别的准确率。 本公开还能结合机器人流程自动化RPA和人工智 能AI实现智能自动化IA的文本处理, 进 一步减少 文本处理所需消耗的资源成本 。 权利要求书3页 说明书18页 附图4页 CN 115116069 A 2022.09.27 CN 115116069 A 1.一种文本处 理方法, 其特 征在于, 包括: 获取初始文本, 其中, 所述初始文本是对图像识别得到; 确定与所述初始文本对应的文本分类特征, 其中, 所述文本分类特征描述文本处理信 息; 根据所述文本处 理信息处 理所述初始文本, 得到目标文本 。 2.如权利要求1所述的方法, 其特征在于, 所述确定与 所述初始文本对应的文本分类特 征, 包括: 如果所述初始文本包括待处理文字, 则采用人工智能AI领域的光学字符识别OCR技术 确定所述待处理文字的初始形态特征, 其中, 所述初始形态特征被作为所述文本 分类特征; 和/或 如果所述初始文本包括待处理字符, 则采用所述OCR技术确定所述待处理字符的初始 字符特征, 其中, 所述初始字符特 征被作为所述文本分类特 征; 和/或 采用所述OCR技术确定所述初始文本的初始语义特征, 其中, 所述初始语义特征被作为 所述文本分类特 征。 3.如权利要求2所述的方法, 其特征在于, 所述文本处理信息由所述初始形态特征描 述; 其中, 所述 根据所述文本处 理信息处 理所述初始文本, 得到目标文本, 包括: 调用机器人流程自动化RPA机器人处理所述文本处理信息, 以确定纠错文字的参考形 态特征; 确定所述初始形态特 征和所述 参考形态特 征之间的相似度信息; 根据所述相似度信息, 确定处 理结果值; 根据所述处 理结果值处理所述初始文本, 得到所述目标文本 。 4.如权利要求3所述的方法, 其特征在于, 所述处理结果值包括: 信心标识, 和与所述信 息标识对应的信心评价 值; 其中, 所述 根据所述处 理结果值处理所述初始文本, 得到所述目标文本, 包括: 如果所述信心标识是目标标识, 且所述信心评价值小于或等于设定阈值, 则将所述初 始文本中所述待处 理文字调整为所述纠错文字, 以得到所述目标文本; 如果所述信心标识不是所述目标标识, 或所述信心评价值大于所述设定阈值, 则将所 述初始文本作为所述目标文本 。 5.如权利要求2所述的方法, 其特征在于, 所述文本处理信息由所述初始字符特征描 述; 其中, 所述 根据所述文本处 理信息处 理所述初始文本, 得到目标文本, 包括: 调用RPA机器人处 理所述文本处 理信息, 以确定参 考字符特 征; 根据所述参考字符特征对所述初始文本 中所述待处理字符进行纠正处理, 得到所述目 标文本。 6.如权利要求2所述的方法, 其特征在于, 所述文本处理信息由所述初始语义特征描 述; 其中, 所述 根据所述文本处 理信息处 理所述初始文本, 得到目标文本, 包括: 调用RPA机器人处理所述文本处理信息, 以确定纠错对应关系, 其中, 所述纠错对应关权 利 要 求 书 1/3 页 2 CN 115116069 A 2系包括: 多个纠错文本, 以及与每 个所述纠错文本对应的纠错标记结果; 从所述多个纠 错文本中确定与所述初始文本所匹配的纠 错文本, 其中, 所述所匹配的 纠错文本具有所对应的纠错标记结果; 根据所述对应的纠错标记结果对所述初始文本的已有标记结果进行纠正处理, 得到所 述目标文本 。 7.如权利要求2所述的方法, 其特征在于, 所述采用人工智能AI领域的光学字符识别 OCR技术确定所述待处 理文字的初始形态特 征, 包括: 采用所述OCR技术确定所述待处理文字的结构特征、 和/或笔画特征、 和/或编码特征、 和/或偏旁部首 特征; 将所述结构特征、 和/或所述笔画特征、 和/或所述编码特征、 和/或所述偏旁部首特征 作为所述初始形态特 征。 8.如权利要求2所述的方法, 其特征在于, 所述采用所述OCR技术确定所述待处理字符 的初始字符特 征, 包括: 采用所述OCR技术确定所述待处理字符的格式特征, 并将所述格式特征作为所述初始 字符特征。 9.如权利要求2所述的方法, 其特征在于, 所述采用所述OCR技术确定所述初始文本的 初始语义特 征, 包括: 采用所述OCR技术确定所述初始文本的文本语义, 和所述文本语义指示的语义标记结 果; 将所述文本语义和所述语义标记结果作为所述初始语义特 征。 10.一种文本处 理装置, 其特 征在于, 包括: 获取模块, 用于获取初始文本, 其中, 所述初始文本是对图像识别得到; 确定模块, 用于确定与所述初始文本对应的文本分类特征, 其中, 所述文本分类特征描 述文本处 理信息; 处理模块, 用于根据所述文本处 理信息处 理所述初始文本, 得到目标文本 。 11.如权利要求10所述的装置, 其特 征在于, 所述确定模块, 包括: 第一确定子模块, 用于在所述初始文本包括待处理文字时, 采用人工智能AI领域的光 学字符识别OCR技术确定所述待处理文字的初始形态特征, 其中, 所述初始形态特征被作为 所述文本分类特 征; 和/或 第二确定子模块, 用于在所述初始文本包括待处理字符时, 采用所述OCR技术确定所述 待处理字符的初始字符特 征, 其中, 所述初始字符特 征被作为所述文本分类特 征; 和/或 第三确定子模块, 用于采用所述OCR技术确定所述初始文本的初始语义特征, 其中, 所 述初始语义特 征被作为所述文本分类特 征。 12.如权利要求11所述的装置, 其特征在于, 所述文本处理信 息由所述初始形态特征描 述; 其中, 所述处 理模块, 具体用于: 调用机器人流程自动化RPA机器人处理所述文本处理信息, 以确定纠错文字的参考形 态特征; 确定所述初始形态特 征和所述 参考形态特 征之间的相似度信息;权 利 要 求 书 2/3 页 3 CN 115116069 A 3

.PDF文档 专利 文本处理方法、装置、电子设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、电子设备及存储介质 第 1 页 专利 文本处理方法、装置、电子设备及存储介质 第 2 页 专利 文本处理方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。