专利文本处理方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210800979.5 (22)申请日 2022.07.08 (71)申请人上海来也伯特网络科技有限公司地址 200030 上海市徐汇区乐山路33号3幢 138室申请人来也科技（北京）有限公司 (72)发明人岳毅　翁嘉颀　陈林平　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师孟洋 (51)Int.Cl. G06V 30/148(2022.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/232(2020.01)G06F 40/194(2020.01) (54)发明名称文本处理方法、装置、电子设备及存储介质 (57)摘要本公开提出一种文本处理方法、装置、电子设备及存储介质，该方法包括：获取初始文本，其中，初始文本是对图像识别得到；确定与初始文本对应的文本分类特征，其中，文本分类特征描述文本处理信息；根据文本处理信息处理初始文本，得到目标文本。通过本公开，能够在基于图像识别得到文本之后，基于与文本对应的文本分类特征对所识别的文本进行个性化的优化处理，从而能够有效提升基于图像的文本识别的准确率。本公开还能结合机器人流程自动化RPA和人工智能AI实现智能自动化IA的文本处理，进一步减少文本处理所需消耗的资源成本。权利要求书3页说明书18页附图4页 CN 115116069 A 2022.09.27 CN 115116069 A 1.一种文本处理方法，其特征在于，包括：获取初始文本，其中，所述初始文本是对图像识别得到；确定与所述初始文本对应的文本分类特征，其中，所述文本分类特征描述文本处理信息；根据所述文本处理信息处理所述初始文本，得到目标文本。 2.如权利要求1所述的方法，其特征在于，所述确定与所述初始文本对应的文本分类特征，包括：如果所述初始文本包括待处理文字，则采用人工智能AI领域的光学字符识别OCR技术确定所述待处理文字的初始形态特征，其中，所述初始形态特征被作为所述文本分类特征；和/或如果所述初始文本包括待处理字符，则采用所述OCR技术确定所述待处理字符的初始字符特征，其中，所述初始字符特征被作为所述文本分类特征；和/或采用所述OCR技术确定所述初始文本的初始语义特征，其中，所述初始语义特征被作为所述文本分类特征。 3.如权利要求2所述的方法，其特征在于，所述文本处理信息由所述初始形态特征描述；其中，所述根据所述文本处理信息处理所述初始文本，得到目标文本，包括：调用机器人流程自动化RPA机器人处理所述文本处理信息，以确定纠错文字的参考形态特征；确定所述初始形态特征和所述参考形态特征之间的相似度信息；根据所述相似度信息，确定处理结果值；根据所述处理结果值处理所述初始文本，得到所述目标文本。 4.如权利要求3所述的方法，其特征在于，所述处理结果值包括：信心标识，和与所述信息标识对应的信心评价值；其中，所述根据所述处理结果值处理所述初始文本，得到所述目标文本，包括：如果所述信心标识是目标标识，且所述信心评价值小于或等于设定阈值，则将所述初始文本中所述待处理文字调整为所述纠错文字，以得到所述目标文本；如果所述信心标识不是所述目标标识，或所述信心评价值大于所述设定阈值，则将所述初始文本作为所述目标文本。 5.如权利要求2所述的方法，其特征在于，所述文本处理信息由所述初始字符特征描述；其中，所述根据所述文本处理信息处理所述初始文本，得到目标文本，包括：调用RPA机器人处理所述文本处理信息，以确定参考字符特征；根据所述参考字符特征对所述初始文本中所述待处理字符进行纠正处理，得到所述目标文本。 6.如权利要求2所述的方法，其特征在于，所述文本处理信息由所述初始语义特征描述；其中，所述根据所述文本处理信息处理所述初始文本，得到目标文本，包括：调用RPA机器人处理所述文本处理信息，以确定纠错对应关系，其中，所述纠错对应关权　利　要　求　书 1/3 页 2 CN 115116069 A 2系包括：多个纠错文本，以及与每个所述纠错文本对应的纠错标记结果；从所述多个纠错文本中确定与所述初始文本所匹配的纠错文本，其中，所述所匹配的纠错文本具有所对应的纠错标记结果；根据所述对应的纠错标记结果对所述初始文本的已有标记结果进行纠正处理，得到所述目标文本。 7.如权利要求2所述的方法，其特征在于，所述采用人工智能AI领域的光学字符识别 OCR技术确定所述待处理文字的初始形态特征，包括：采用所述OCR技术确定所述待处理文字的结构特征、和/或笔画特征、和/或编码特征、和/或偏旁部首特征；将所述结构特征、和/或所述笔画特征、和/或所述编码特征、和/或所述偏旁部首特征作为所述初始形态特征。 8.如权利要求2所述的方法，其特征在于，所述采用所述OCR技术确定所述待处理字符的初始字符特征，包括：采用所述OCR技术确定所述待处理字符的格式特征，并将所述格式特征作为所述初始字符特征。 9.如权利要求2所述的方法，其特征在于，所述采用所述OCR技术确定所述初始文本的初始语义特征，包括：采用所述OCR技术确定所述初始文本的文本语义，和所述文本语义指示的语义标记结果；将所述文本语义和所述语义标记结果作为所述初始语义特征。 10.一种文本处理装置，其特征在于，包括：获取模块，用于获取初始文本，其中，所述初始文本是对图像识别得到；确定模块，用于确定与所述初始文本对应的文本分类特征，其中，所述文本分类特征描述文本处理信息；处理模块，用于根据所述文本处理信息处理所述初始文本，得到目标文本。 11.如权利要求10所述的装置，其特征在于，所述确定模块，包括：第一确定子模块，用于在所述初始文本包括待处理文字时，采用人工智能AI领域的光学字符识别OCR技术确定所述待处理文字的初始形态特征，其中，所述初始形态特征被作为所述文本分类特征；和/或第二确定子模块，用于在所述初始文本包括待处理字符时，采用所述OCR技术确定所述待处理字符的初始字符特征，其中，所述初始字符特征被作为所述文本分类特征；和/或第三确定子模块，用于采用所述OCR技术确定所述初始文本的初始语义特征，其中，所述初始语义特征被作为所述文本分类特征。 12.如权利要求11所述的装置，其特征在于，所述文本处理信息由所述初始形态特征描述；其中，所述处理模块，具体用于：调用机器人流程自动化RPA机器人处理所述文本处理信息，以确定纠错文字的参考形态特征；确定所述初始形态特征和所述参考形态特征之间的相似度信息；权　利　要　求　书 2/3 页 3 CN 115116069 A 3

专利 文本处理方法、装置、电子设备及存储介质

专利文本处理方法、装置、电子设备及存储介质