说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210596469.0 (22)申请日 2022.05.30 (71)申请人 上海华客信息科技有限公司 地址 200335 上海市长 宁区广顺路3 3号8幢 (72)发明人 叶帅 刘晓雷 王长春  (74)专利代理 机构 上海隆天律师事务所 31282 专利代理师 高彦 (51)Int.Cl. G06F 40/58(2020.01) G06F 40/30(2020.01) G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 文本处理方法、 装置及存 储介质 (57)摘要 本公开实施例中提供文本处理方法、 装置及 存储介质, 文本处理方法包括: 检测待处理文本 所包含的语种; 基于对应所检测到的每种语种的 翻译工具, 将所述待处理文本翻译成预设语种的 翻译文本; 通过语义断句模型, 对所述翻译文本 进行断句 处理; 其中, 所述断句处理根据相邻子 句之间的语义相关信息, 以确定相邻子句是否被 合并至同一句中。 本公开实施例中方案实现考量 文本中子句语义来断句, 使得断句更加准确, 提 升用户体验。 权利要求书1页 说明书9页 附图2页 CN 115496078 A 2022.12.20 CN 115496078 A 1.一种文本处 理方法, 其特 征在于, 包括: 检测待处 理文本所包 含的语种; 基于对应所检测到的每种语种的翻译工具, 将所述待处理文本翻译成预设语种的翻译 文本; 通过语义断句模型, 对所述翻译文本进行断句处理; 其中, 所述断句处理根据相邻 子句 之间的语义相关信息, 以确定相邻子句是否被合并至同一句中。 2.根据权利要求1所述的文本处理方法, 其特征在于, 所述语义相关信 息包括以下至少 一种: 子句之间语义相同或相似; 子句之间描述同一内容。 3.根据权利要求1所述的文本处理方法, 其特征在于, 所述根据相邻 子句之间的语义相 关信息, 以确定相邻子句是否被合并至同一句中, 包括: 获得相邻的第一子句和第二子句之间的语义相关表示 值; 判断所述语义相关表示 值与下限阈值或上限阈值的接 近程度; 根据所述接 近程度确定第一子句和第二子句之间合并至同一句或拆分至不同句。 4.根据权利要求1所述的文本处理方法, 其特征在于, 所述子句是由特定分隔符号所分 隔而成; 所述特定分隔符号包括以下至少一种: 逗 号; 句号; 分号; 空格。 5.根据权利要求1所述的文本处理方法, 其特征在于, 还包括: 预处理步骤, 包括过滤特 殊字符。 6.根据权利要求1所述的文本处理方法, 其特征在于, 所述检测待处理文本所包含的语 种, 包括: 拆分所述待处 理文本中不同语种的片段。 7.根据权利要求6所述的文本处理方法, 其特征在于, 所述拆分所述待处理文本 中不同 语种的片段, 包括: 识别待处 理文本中不同语种的部分之间的边界。 8.根据权利要求1所述的文本处理方法, 其特征在于, 所述语义断句模型为通过训练数 据训练深度学习模型得到; 所述训练数据包括: 被切分的相邻子句及表示它们之间语义相 关信息的标签。 9.一种文本处 理装置, 其特 征在于, 包括: 语种检测模块, 用于检测待处 理文本所包 含的语种; 文本翻译模块, 用于基于对应所检测到的每种语种的翻译工具, 将所述待处理文本翻 译成预设语种的翻译 文本; 断句处理模块, 用于通过语义断句模型, 对所述翻译文本进行断句处理; 其中, 所述断 句处理根据相邻子句之间的语义相关信息, 以确定相邻子句是否被合并至同一句中。 10.一种计算机装置, 其特征在于, 包括: 通信器、 存储器及处理器; 所述通信器用于与 外部通信; 所述存储器存储有程序指令; 所述处理器用于运行所述程序指令以执行如权利 要求1至8中任一项所述的文本处 理方法。 11.一种计算机可读存储介质, 其特征在于, 存储有程序指令, 所述程序指令被运行以 执行如权利要求1至8中任一项所述的文本处 理方法。权 利 要 求 书 1/1 页 2 CN 115496078 A 2文本处理 方法、 装置及存储介质 技术领域 [0001]本公开涉及文本处 理技术领域, 尤其涉及文本处 理方法、 装置及存 储介质。 背景技术 [0002]信息时代下, 网络空间中存在大量的舆情信息, 其中很大一部分属于文本信息。 目 前很多文本处理方法存在一定的局限性: [0003]一方面, 目前的文本处理方法只能处理单一语种, 比如中文、 英文等其他小语种, 而无法处 理多语种混合的内容。 [0004]另一方面, 目前很多文本处理方法中的断句算法一般基于语音识别的端点检测, 并不能真正用于文本分析 的断句。 具体来讲, 基于语音识别的断句和基于文本分析 的断句 在功能上存在本质的不同。 首先, 针对语音和针对文本断句, 在用途上完全不同; 其次, 目前 的断句算法只考虑到说话人当前句 子是否完整, 并不会考虑句 子前后的语义, 造成断句结 果不准确, 不利于后续基于文本分析的用户服 务的用户体验。 发明内容 [0005] [0006]鉴于以上相关技术的缺点, 本公开的目的在于提供文本处理方法、 装置及存储介 质, 以解决相关技 术中的问题。 [0007]本公开第一方面提供一种文本处理方法, 包括: 检测待处理文本所包含的语种; 基 于对应所检测到的每种语种的翻译工具, 将所述待处理文本翻译成预设语种的翻译文本; 通过语义断句模型, 对所述翻译文本进 行断句处理; 其中, 所述断句处理根据相 邻子句之间 的语义相关信息, 以确定相邻子句是否被合并至同一句中。 [0008]在第一方面的实施例中, 所述语义相关信息包括以下至少一种: 子句之间语义相 同或相似; 子句之间描述同一内容。 [0009]在第一方面的实施例中, 所述根据相邻子句之间的语义相关信息, 以确定相邻子 句是否被合并至同一句中, 包括: 获得相 邻的第一子句和第二子句之 间的语义相关表示值; 判断所述语义相关表示值与下限阈值或上限阈值的接近程度; 根据所述接近程度确定第一 子句和第二子句之间合并至同一句或拆分至不同句。 [0010]在第一方面的实施例中, 所述子句 是由特定分隔符号所分隔而成; 所述特定分隔 符号包括以下至少一种: 逗 号; 句号; 分号; 空格。 [0011]在第一方面的实施例中, 所述文本处理方法还包括: 预处理步骤, 包括过滤特殊字 符。 [0012]在第一方面的实施例中, 所述检测待处理文本所包含的语种, 包括: 拆分所述待处 理文本中不同语种的片段。 [0013]在第一方面的实施例中, 所述拆分所述待处理文本中不同语种的片段, 包括: 识别 待处理文本中不同语种的部分之间的边界。说 明 书 1/9 页 3 CN 115496078 A 3

.PDF文档 专利 文本处理方法、装置及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本处理方法、装置及存储介质 第 1 页 专利 文本处理方法、装置及存储介质 第 2 页 专利 文本处理方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。