说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210531617.0 (22)申请日 2022.05.13 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 白皓宇 吴家林 王华伟  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 专利代理师 鄢功军 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01) G06F 40/216(2020.01) (54)发明名称 文本处理方法、 装置、 电子设备和存 储介质 (57)摘要 本公开提供了一种文本处理方法, 涉及人工 智能技术领域, 尤其涉及自然语言处理技术领 域。 具体实现方案为: 对待处理文本进行划分, 得 到文本集, 其中, 文本集包括至少一个子文本; 确 定与目标文本相关的至少一个预设概率值, 其 中, 目标文本是与子文本匹配的文本, 预设概率 值用于表征目标文本与其它文本进行组合的概 率; 根据至少一个预设概率值, 确定概率值, 其 中, 概率值用于表征目标文本为子文本的语义复 原文本的概率; 以及根据概率值, 确定待处理文 本的语义复原文本。 本公开还提供了一种文本处 理装置、 电子设备和存 储介质。 权利要求书2页 说明书10页 附图4页 CN 114781399 A 2022.07.22 CN 114781399 A 1.一种文本处 理方法, 包括: 对待处理文本进行划分, 得到文本集, 其中, 所述文本集包括至少一个子文本; 确定与目标文本相关的至少一个预设概率值, 其中, 所述目标文本是与所述子文本匹 配的文本, 所述预设概 率值用于表征 所述目标文本与其它文本进行组合的概 率; 根据所述至少一个预设概率值, 确定概率值, 其中, 所述概率值用于表征所述目标文本 为所述子文本的语义复原文本的概 率; 以及 根据所述 概率值, 确定所述待处 理文本的语义复原文本 。 2.根据权利要求1所述的方法, 其中, 所述确定与目标文本相关的至少一个预设概率值 包括: 将所述至少一个子文本与多个预设文本进行匹配, 得到至少一个复原文本集, 其中, 所 述复原文本集包括与所述子文本匹配的至少一个预设文本; 将所述至少一个复原文本集之间的预设文本进行组合, 得到多个文本组合, 其中, 所述 文本组合与一个预设概 率值对应; 将所述复原文本集中的预设文本确定为所述目标文本; 以及 根据所述多个文本组合, 确定与所述目标文本相关的至少一个预设概 率值。 3.根据权利要求2所述的方法, 其中, 所述多个预设文本来自于预设语料库, 所述根据所述至少一个预设概 率值, 确定概 率值包括: 根据所述至少一个预设概 率值, 确定第一子概 率值; 根据所述目标文本在所述预设语料库中的词频, 确定第二子概 率值; 以及 根据所述第一子概 率值和所述第二子概 率值, 确定所述 概率值。 4.根据权利要求2所述的方法, 其中, 所述根据所述至少一个预设概率值, 确定概率值 包括: 根据所述至少一个预设概 率值, 确定第一子概 率值; 根据所述目标文本的词性, 确定第三子概 率值; 以及 根据所述第一子概 率值和所述第三子概 率值, 确定所述 概率值。 5.根据权利要求1所述的方法, 其中, 所述对待处 理文本进行划分, 得到文本集包括: 根据所述待处理文本的语序信息, 对所述待处理文本进行至少一次划分, 得到所述至 少一个文本集。 6.根据权利要求1所述的方法, 其中, 所述目标文本为多个, 所述根据所述 概率值, 确定所述待处 理文本的语义复原文本包括: 根据多个概 率值, 从所述多个目标文本中确定所述子文本的语义复原文本; 以及 根据所述子文本的语义复原文本, 确定所述待处 理文本的语义复原文本 。 7.一种文本处 理装置, 包括: 划分模块, 用于对待处理文本进行划分, 得到文本集, 其中, 所述文本集包括至少一个 子文本; 第一确定模块, 用于确定与目标文本相关的至少一个预设概率值, 其中, 所述目标文本 是与所述子文本匹配的文本, 所述预设概率值用于表征所述目标文本与其它文本进行组合 的概率; 第二确定模块, 用于根据所述至少一个预设概率值, 确定概率值, 其中, 所述概率值用权 利 要 求 书 1/2 页 2 CN 114781399 A 2于表征所述目标文本为所述子文本的语义复原文本的概 率; 以及 第三确定模块, 用于根据所述 概率值, 确定所述待处 理文本的语义复原文本 。 8.根据权利要求7 所述的装置, 其中, 所述第一确定模块包括: 匹配单元, 用于将所述至少一个子文本与多个预设文本进行匹配, 得到至少一个复原 文本集, 其中, 所述复原文本集包括与所述子文本匹配的至少一个预设文本; 组合单元, 用于将所述至少一个复原文本集之间的预设文本进行组合, 得到多个文本 组合, 其中, 所述文本组合与一个预设概 率值对应; 第一确定单 元, 用于将所述复原文本集中的预设文本确定为所述目标文本; 以及 第二确定单元, 用于根据所述多个文本组合, 确定与所述目标文本相关的至少一个预 设概率值。 9.根据权利要求8所述的装置, 其中, 所述多个预设文本来自于预设语料库, 所述第二确定模块包括: 第三确定单 元, 用于根据所述至少一个预设概 率值, 确定第一子概 率值; 第四确定单元, 用于根据所述目标文本在所述预设语料库中的词频, 确定第二子概率 值; 以及 第五确定单 元, 用于根据所述第一子概 率值和所述第二子概 率值, 确定所述 概率值。 10.根据权利要求8所述的装置, 其中, 所述第二确定模块包括: 第六确定单 元, 用于根据所述至少一个预设概 率值, 确定第一子概 率值; 第七确定单 元, 用于根据所述目标文本的词性, 确定第三子概 率值; 以及 第八确定单 元, 用于根据所述第一子概 率值和所述第三子概 率值, 确定所述 概率值。 11.根据权利要求7 所述的装置, 其中, 所述划分模块包括: 划分单元, 用于根据所述待处理文本的语序信息, 对所述待处理文本进行至少一次划 分, 得到所述至少一个文本集。 12.根据权利要求7 所述的装置, 其中, 所述目标文本为多个, 所述第三确定模块包括: 第九确定单元, 用于根据多个概率值, 从所述多个目标文本中确定所述子文本的语义 复原文本; 以及 第十确定单元, 用于根据所述子文本的语义复原文本, 确定所述待处理文本的语义复 原文本。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1至 6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1至 6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根 据权利要求1至 6中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114781399 A 3

.PDF文档 专利 文本处理方法、装置、电子设备和存储介质

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、电子设备和存储介质 第 1 页 专利 文本处理方法、装置、电子设备和存储介质 第 2 页 专利 文本处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。