说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210613188.1 (22)申请日 2022.05.31 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 戴松泰 姜文斌 孙卓 吕雅娟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 罗岚 (51)Int.Cl. G06F 16/951(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) (54)发明名称 文本处理方法、 装置、 设备、 存储介质和程序 产品 (57)摘要 本公开提供了一种文本处理方法、 装置、 设 备、 存储介质和程序产品, 涉及人工智 能技术领 域, 具体为自然语言处理、 深度学习和知识图谱 技术领域。 在本公开的一些实施例中, 对目标应 用领域的原始文本进行切分, 得到目标文本片 段; 自动确定与目标文本片段关联的目标应用领 域文本; 根据原始文本, 自动从目标网页文本包 含的设定类型文本中筛选出目标应用领域的目 标应用领域文本, 相对于人工获取领域文本的方 式, 本公开自动获取领域文本, 提高对领域文本 的获取效率。 权利要求书2页 说明书10页 附图3页 CN 114780821 A 2022.07.22 CN 114780821 A 1.一种文本处 理方法, 包括: 对原始文本进行切分, 得到目标文本片段, 其中, 所述原始文本为目标应用领域的文 本; 从目标数据库中搜索与所述目标文本片段关联的目标网页文本; 根据所述原始文本, 从所述目标网页文本包含的设定类型文本中筛选出所述目标应用 领域文本 。 2.根据权利要求1所述的方法, 其中, 所述对原始文本进行切分, 得到目标文本片段, 包 括: 根据预设分隔符和/或第 一预设文本长度, 对所述原始文本进行切分, 得到所述目标文 本片段。 3.根据权利要求2所述的方法, 其中, 所述根据预设分隔符和第一预设文本长度, 对所 述原始文本进行切分, 得到所述目标文本片段, 包括: 根据预设 分隔符, 对所述原 始文本进行切分, 得到多个第一文本片段; 将所述多个第一文本片段中文本长度大于所述第一预设文本长度的文本片段进行切 分, 得到多个第二文本片段, 其中, 每个所述第二文本片段的文本长度小于等于所述第一预 设文本长度; 将所述多个第 二文本片段中文本长度小于第 二预设文本长度的文本片段进行去除, 得 到所述目标文本片段。 4.根据权利要求1所述的方法, 其中, 所述从目标数据库中搜索与所述目标文本片段关 联的目标网页文本, 包括: 从目标数据库中搜索与所述目标文本片段关联的网页地址; 根据所述网页地址, 爬取原 始网页文本; 对所述原 始网页文本进行 数据清洗, 得到所述目标网页文本 。 5.根据权利要求4所述的方法, 其中, 所述对所述原始网页文本进行数据清洗, 包括以 下至少一种清洗操作: 统计所述原始网页文本满足设定条件的第 一段落文本的数量, 若所述第 一段落文本的 数量大于设定数量阈值, 则去除所述第一段落文本; 分别统计所述原始网页文本中的各段落文本的设定文字占比; 去除所述设定文字占比 大于设定比例阈值的第二段落文本 。 6.根据权利要求1所述的方法, 其中, 所述方法还 包括: 根据所述目标应用领域文本对初始模型进行训练, 得到预训练模型, 其中, 所述初始模 型与所述目标应用领域关联。 7.一种文本处 理装置, 包括: 切分模块, 用于对原始文本进行切分, 得到目标文本片段, 其中, 所述原始文本为目标 应用领域的文本; 搜索模块, 用于从目标 数据库中搜索与所述目标文本片段关联的目标网页文本; 筛选模块, 用于根据所述原始文本, 从所述目标网页文本包含的设定类型文本中筛选 出所述目标应用领域文本 。 8.根据权利要求7所述的装置, 其中, 所述切分模块在对原始文本进行切分, 得到目标权 利 要 求 书 1/2 页 2 CN 114780821 A 2文本片段时, 用于: 根据预设分隔符和/或第 一预设文本长度, 对所述原始文本进行切分, 得到所述目标文 本片段。 9.根据权利要求8所述的装置, 其中, 所述在根据预设分隔符和第一预设文本长度, 对 所述原始文本进行切分, 得到所述目标文本片段时, 用于: 根据预设 分隔符, 对所述原 始文本进行切分, 得到多个第一文本片段; 将所述多个第一文本片段中文本长度大于所述第一预设文本长度的文本片段进行切 分, 得到多个第二文本片段, 其中, 每个所述第二文本片段的文本长度小于等于所述第一预 设文本长度; 将所述多个第 二文本片段中文本长度小于第 二预设文本长度的文本片段进行去除, 得 到所述目标文本片段。 10.根据权利要求7所述的装置, 其中, 所述搜索模块在从目标数据库中搜索与所述目 标文本片段关联的目标网页文本时, 用于: 从目标数据库中搜索与所述目标文本片段关联的网页地址; 根据所述网页地址, 爬取原 始网页文本; 对所述原 始网页文本进行 数据清洗, 得到所述目标网页文本 。 11.根据权利要求10所述的装置, 其中, 所述搜索模块在对所述原始网页文本进行数据 清洗, 包括以下至少一种清洗操作: 统计所述原始网页文本满足设定条件的第 一段落文本的数量, 若所述第 一段落文本的 数量大于设定数量阈值, 则去除所述第一段落文本; 分别统计所述原始网页文本中的各段落文本的设定文字占比; 去除所述设定文字占比 大于设定比例阈值的第二段落文本 。 12.根据权利要求7 所述的装置, 其中, 所述装置还 包括预训练模块; 所述预训练模块, 用于根据所述目标应用领域文本对初始模型进行训练, 得到预训练 模型, 其中, 所述初始模型与所述目标应用领域关联。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序/指令, 所述计算机程序/指令在被处理器执 行时实现根据权利要求1 ‑6中任一项所述的方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114780821 A 3

.PDF文档 专利 文本处理方法、装置、设备、存储介质和程序产品

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置、设备、存储介质和程序产品 第 1 页 专利 文本处理方法、装置、设备、存储介质和程序产品 第 2 页 专利 文本处理方法、装置、设备、存储介质和程序产品 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。