(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210370662.2
(22)申请日 2022.04.11
(71)申请人 安徽清博大 数据科技有限公司
地址 230031 安徽省合肥市蜀山经济开发
区湖光路自主创新产业基地三期(南
区)D座1701
(72)发明人 高腾 朱旭琪 王欢 夏茂晋
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种无监 督中文分词 系统及方法
(57)摘要
本发明公开了一种无监督中文分词系统及
方法, 包括文本获取模块、 预处理模块、 数据库,
分词模块、 成型输出模块, 文本获取模块用于从
互联网上获取大量文本数据, 并将文本数据储存
入数据库, 预处理模块用于提取数据库中未处理
的文本, 训练分词模型, 对文本进行分词处理, 并
将得到的分词结果输入至第一训练模 型, 第训练
模型对分词结果进行第一解码处理, 以得到分词
解码结果, 基于数据库生成对应分词的问题, 并
对问题进行分词处理。 本发明针对中文自然语言
处理领域中的分词任务进行优化补充, 可以在无
标注数据的条件 下实现中文分词, 有效提升了汉
语无监督 分词测评任务中F 1值, 提高分词工作效
率。
权利要求书1页 说明书4页 附图1页
CN 114722813 A
2022.07.08
CN 114722813 A
1.一种无监督中文分词系统, 其特征在于, 包括文本获取模块、 预处理模块、 数据库, 分
词模块、 成型输出模块;
所述文本获取模块用于从互联网上获取 大量文本数据, 并将文本数据储 存入数据库;
所述预处理模块用于提取数据库中未处理的文本, 训练分词模型, 对文本进行分词处
理, 并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进 行第一解码处理,
以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进 行分词处理, 将得到的
问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进行第二解码处理, 以
得到问题解码结果;
所述分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的文本
存入数据库;
所述成型输出模块用于根据分词模块输出 结果输出相应分词文本 。
2.根据权利要求1所述的一种无监督中文分词方法, 其特征在于, 所述方法包括以下步
骤:
A、 文本获取模块用于从互联网上获取大量文本数据, 对将文本转换为一种在构建分词
器时使用的格式存储我们的数据, 创建包含数据集中文本特征的纯文本文件并拆分文本,
并将文本数据储 存入数据库;
B、 预处理模块用于提取数据库中未处理的文本, 训练分词模型, 对文本进行分词处理,
并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进行第一解码处理, 以
得到分词解码结果, 基于数据库生成对应 分词的问题, 并对问题进 行分词处理, 将得到的问
题分词结果输入至第二训练模型, 第二训练模型对问题分词 结果进行第二解码处理, 以得
到问题解码结果;
C、 分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的文本存
入数据库;
D、 成型输出模块用于根据分词模块输出 结果输出相应分词文本 。
3.根据权利要求1所述的一种无监督中文分词方法, 其特征在于, 所述分词模块工作方
法步骤如下:
S1、 调取第一训练模型、 第二训练模型, 保存词表文件;
S2、 待分词的文本序列
, 选择
作为词语的起始位置, 将
用
mask替换后输入到训练模型中, 得到
对应的向量
;
S3、 将文本序列
和
都使用mask替换输入到BERT模型中, 得到
对应的向量
;
S4、 计算向量
和
之间的相关度;
S5、 若相关度小于阈值, 则将
和
断开, 否则选择
重复S2至S4步骤,
直到
小于阈值, 将
断开, 当中一个词组;
S6、 选择
作为词语的起始位置, 重复S2至S5步骤;
S7、 阈值默认设置为0.45 。权 利 要 求 书 1/1 页
2
CN 114722813 A
2一种无监督中文分词系统及方 法
技术领域
[0001]本发明属于中文分词研究领域, 尤其涉及一种无监 督中文分词系统及方法。
背景技术
[0002]汉语分词是指 连续的中文字符串按照一定的规范分割成词序列的过程。 国际上常
用的对文本进行深层次的语法语义分析 的方法, 都是以词作为基本单位。 中文词 是由单个
汉字组成, 很多单个汉字本身无法独立作为一个词来应用或起到语法作用。 然而在中文文
本中, 汉字是连写的, 词之间没有空格, 无法直接获取到哪几个汉字组成一个中文词。 因此
我们对此做出改进, 提出一种无监 督中文分词系统及方法。
发明内容
[0003]本发明的目的在于克服现有技术存在的以上问题, 提供一种无监督中文分词系统
及方法, 针对中文自然语言处理领域中的分词任务进行优化补充, 可以在无标注数据的条
件下实现中文分词, 有效提升 了汉语无监 督分词测评任务中F1值, 提高分词工作效率。
[0004]为实现上述 技术目的, 达 到上述技术效果, 本发明通过以下技 术方案实现:
一种无监督中文分词系统及方法, 包括文本获取模块、 预处理模块、 数据库, 分词
模块、 成型输出模块;
所述文本获取模块用于从互联 网上获取大量文本数据, 并将文本数据储存入数据
库;
所述预处理模块用于提取数据库 中未处理的文本, 训练分词模型, 对文本进行分
词处理, 并将得到的分词结果输入至第一训练模型, 第训练模型对分词结果进行第一解码
处理, 以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进行分词处理, 将
得到的问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进 行第二解码处
理, 以得到问题解码结果;
所述分词模块用于根据分词算法对需要分词的文本进行分词处理, 再将分词后的
文本存入数据库;
所述成型输出模块用于根据分词模块输出 结果输出相应分词文本 。
[0005]一种无监 督中文分词方法:
A、 文本获取模块用于从互联网上获取大量文本数据, , 对将文本转换为一种在构
建分词器时使用的格式存储我们的数据, 创建包含数据集中文本特征的纯文本文件并拆分
文本, 并将文本数据储 存入数据库;
B、 预处理模块用于提取数据库 中未处理的文本, 训练分词模型, 对文本进行分词
处理, 并将得到的分词 结果输入至第一训练模型, 第训练模型对分词结果进行第一解码处
理, 以得到分词解码结果, 基于数据库生成对应分词的问题, 并对问题进行分词处理, 将得
到的问题分词结果输入至第二训练模型, 第二训练模型对问题分词结果进行第二解码处
理, 以得到问题解码结果;说 明 书 1/4 页
3
CN 114722813 A
3
专利 一种无监督中文分词系统及方法
文档预览
中文文档
7 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共7页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:41上传分享