说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210370662.2 (22)申请日 2022.04.11 (71)申请人 安徽清博大 数据科技有限公司 地址 230031 安徽省合肥市蜀山经济开发 区湖光路自主创新产业基地三期(南 区)D座1701 (72)发明人 高腾 朱旭琪 王欢 夏茂晋  (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 一种无监 督中文分词 系统及方法 (57)摘要 本发明公开了一种无监督中文分词系统及 方法, 包括文本获取模块、 预处理模块、 数据库, 分词模块、 成型输出模块, 文本获取模块用于从 互联网上获取大量文本数据, 并将文本数据储存 入数据库, 预处理模块用于提取数据库中未处理 的文本, 训练分词模型, 对文本进行分词处理, 并 将得到的分词结果输入至第一训练模 型, 第训练 模型对分词结果进行第一解码处理, 以得到分词 解码结果, 基于数据库生成对应分词的问题, 并 对问题进行分词处理。 本发明针对中文自然语言 处理领域中的分词任务进行优化补充, 可以在无 标注数据的条件 下实现中文分词, 有效提升了汉 语无监督 分词测评任务中F 1值, 提高分词工作效 率。 权利要求书1页 说明书4页 附图1页 CN 114722813 A 2022.07.08 CN 114722813 A 1.一种无监督中文分词系统, 其特征在于, 包括文本获取模块、 预处理模块、 数据库, 分 词模块、 成型输出模块; 所述文本获取模块用于从互联网上获取 大量文本数据, 并将文本数据储 存入数据库; 所述预处理模块用于提取数据库中未处理的文本, 训练分词模型, 对文本进行分词处 理, 并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进 行第一解码处理, 以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进 行分词处理, 将得到的 问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进行第二解码处理, 以 得到问题解码结果; 所述分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的文本 存入数据库; 所述成型输出模块用于根据分词模块输出 结果输出相应分词文本 。 2.根据权利要求1所述的一种无监督中文分词方法, 其特征在于, 所述方法包括以下步 骤: A、 文本获取模块用于从互联网上获取大量文本数据, 对将文本转换为一种在构建分词 器时使用的格式存储我们的数据, 创建包含数据集中文本特征的纯文本文件并拆分文本, 并将文本数据储 存入数据库; B、 预处理模块用于提取数据库中未处理的文本, 训练分词模型, 对文本进行分词处理, 并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进行第一解码处理, 以 得到分词解码结果, 基于数据库生成对应 分词的问题, 并对问题进 行分词处理, 将得到的问 题分词结果输入至第二训练模型, 第二训练模型对问题分词 结果进行第二解码处理, 以得 到问题解码结果; C、 分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的文本存 入数据库; D、 成型输出模块用于根据分词模块输出 结果输出相应分词文本 。 3.根据权利要求1所述的一种无监督中文分词方法, 其特征在于, 所述分词模块工作方 法步骤如下: S1、 调取第一训练模型、 第二训练模型, 保存词表文件; S2、 待分词的文本序列 , 选择 作为词语的起始位置, 将 用 mask替换后输入到训练模型中, 得到 对应的向量 ; S3、 将文本序列 和 都使用mask替换输入到BERT模型中, 得到 对应的向量 ; S4、 计算向量 和 之间的相关度; S5、 若相关度小于阈值, 则将 和 断开, 否则选择 重复S2至S4步骤, 直到 小于阈值, 将 断开, 当中一个词组; S6、 选择 作为词语的起始位置, 重复S2至S5步骤; S7、 阈值默认设置为0.45 。权 利 要 求 书 1/1 页 2 CN 114722813 A 2一种无监督中文分词系统及方 法 技术领域 [0001]本发明属于中文分词研究领域, 尤其涉及一种无监 督中文分词系统及方法。 背景技术 [0002]汉语分词是指 连续的中文字符串按照一定的规范分割成词序列的过程。 国际上常 用的对文本进行深层次的语法语义分析 的方法, 都是以词作为基本单位。 中文词 是由单个 汉字组成, 很多单个汉字本身无法独立作为一个词来应用或起到语法作用。 然而在中文文 本中, 汉字是连写的, 词之间没有空格, 无法直接获取到哪几个汉字组成一个中文词。 因此 我们对此做出改进, 提出一种无监 督中文分词系统及方法。 发明内容 [0003]本发明的目的在于克服现有技术存在的以上问题, 提供一种无监督中文分词系统 及方法, 针对中文自然语言处理领域中的分词任务进行优化补充, 可以在无标注数据的条 件下实现中文分词, 有效提升 了汉语无监 督分词测评任务中F1值, 提高分词工作效率。 [0004]为实现上述 技术目的, 达 到上述技术效果, 本发明通过以下技 术方案实现: 一种无监督中文分词系统及方法, 包括文本获取模块、 预处理模块、 数据库, 分词 模块、 成型输出模块; 所述文本获取模块用于从互联 网上获取大量文本数据, 并将文本数据储存入数据 库; 所述预处理模块用于提取数据库 中未处理的文本, 训练分词模型, 对文本进行分 词处理, 并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进行第一解码 处理, 以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进行分词处理, 将 得到的问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进 行第二解码处 理, 以得到问题解码结果; 所述分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的 文本存入数据库; 所述成型输出模块用于根据分词模块输出 结果输出相应分词文本 。 [0005]一种无监 督中文分词方法: A、 文本获取模块用于从互联网上获取大量文本数据, , 对将文本转换为一种在构 建分词器时使用的格式存储我们的数据, 创建包含数据集中文本特征的纯文本文件并拆分 文本, 并将文本数据储 存入数据库; B、 预处理模块用于提取数据库 中未处理的文本, 训练分词模型, 对文本进行分词 处理, 并将得到的分词 结果输入至第一训练模型, 第训练模型对分词结果进行第一解码处 理, 以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进行分词处理, 将得 到的问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进行第二解码处 理, 以得到问题解码结果;说 明 书 1/4 页 3 CN 114722813 A 3

.PDF文档 专利 一种无监督中文分词系统及方法

文档预览
中文文档 7 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种无监督中文分词系统及方法 第 1 页 专利 一种无监督中文分词系统及方法 第 2 页 专利 一种无监督中文分词系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。