专利 一种无监督中文分词系统及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210370662.2 (22)申请日 2022.04.11 (71)申请人安徽清博大数据科技有限公司地址 230031 安徽省合肥市蜀山经济开发区湖光路自主创新产业基地三期(南区)D座1701 (72)发明人高腾　朱旭琪　王欢　夏茂晋　 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称一种无监督中文分词系统及方法 (57)摘要本发明公开了一种无监督中文分词系统及方法，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块，文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库，预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理。本发明针对中文自然语言处理领域中的分词任务进行优化补充，可以在无标注数据的条件下实现中文分词，有效提升了汉语无监督分词测评任务中F 1值，提高分词工作效率。权利要求书1页说明书4页附图1页 CN 114722813 A 2022.07.08 CN 114722813 A 1.一种无监督中文分词系统，其特征在于，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块；所述文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库；所述预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以得到问题解码结果；所述分词模块用于根据分词算法对需要分词的文本进行分词处理，再将分词后的文本存入数据库；所述成型输出模块用于根据分词模块输出结果输出相应分词文本。 2.根据权利要求1所述的一种无监督中文分词方法，其特征在于，所述方法包括以下步骤： A、文本获取模块用于从互联网上获取大量文本数据，对将文本转换为一种在构建分词器时使用的格式存储我们的数据，创建包含数据集中文本特征的纯文本文件并拆分文本，并将文本数据储存入数据库； B、预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以得到问题解码结果； C、分词模块用于根据分词算法对需要分词的文本进行分词处理，再将分词后的文本存入数据库； D、成型输出模块用于根据分词模块输出结果输出相应分词文本。 3.根据权利要求1所述的一种无监督中文分词方法，其特征在于，所述分词模块工作方法步骤如下： S1、调取第一训练模型、第二训练模型，保存词表文件； S2、待分词的文本序列，选择作为词语的起始位置，将用 mask替换后输入到训练模型中，得到对应的向量； S3、将文本序列和都使用mask替换输入到BERT模型中，得到对应的向量； S4、计算向量和之间的相关度； S5、若相关度小于阈值，则将和断开，否则选择重复S2至S4步骤，直到小于阈值，将断开，当中一个词组； S6、选择作为词语的起始位置，重复S2至S5步骤； S7、阈值默认设置为0.45 。权　利　要　求　书 1/1 页 2 CN 114722813 A 2一种无监督中文分词系统及方法技术领域 [0001]本发明属于中文分词研究领域，尤其涉及一种无监督中文分词系统及方法。背景技术 [0002]汉语分词是指连续的中文字符串按照一定的规范分割成词序列的过程。国际上常用的对文本进行深层次的语法语义分析的方法，都是以词作为基本单位。中文词是由单个汉字组成，很多单个汉字本身无法独立作为一个词来应用或起到语法作用。然而在中文文本中，汉字是连写的，词之间没有空格，无法直接获取到哪几个汉字组成一个中文词。因此我们对此做出改进，提出一种无监督中文分词系统及方法。发明内容 [0003]本发明的目的在于克服现有技术存在的以上问题，提供一种无监督中文分词系统及方法，针对中文自然语言处理领域中的分词任务进行优化补充，可以在无标注数据的条件下实现中文分词，有效提升了汉语无监督分词测评任务中F1值，提高分词工作效率。 [0004]为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：一种无监督中文分词系统及方法，包括文本获取模块、预处理模块、数据库，分词模块、成型输出模块；所述文本获取模块用于从互联网上获取大量文本数据，并将文本数据储存入数据库；所述预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以得到问题解码结果；所述分词模块用于根据分词算法对需要分词的文本进行分词处理，再将分词后的文本存入数据库；所述成型输出模块用于根据分词模块输出结果输出相应分词文本。 [0005]一种无监督中文分词方法： A、文本获取模块用于从互联网上获取大量文本数据，，对将文本转换为一种在构建分词器时使用的格式存储我们的数据，创建包含数据集中文本特征的纯文本文件并拆分文本，并将文本数据储存入数据库； B、预处理模块用于提取数据库中未处理的文本，训练分词模型，对文本进行分词处理，并将得到的分词结果输入至第一训练模型，第训练模型对分词结果进行第一解码处理，以得到分词解码结果，基于数据库生成对应分词的问题，并对问题进行分词处理，将得到的问题分词结果输入至第二训练模型，第二训练模型对问题分词结果进行第二解码处理，以得到问题解码结果；说　明　书 1/4 页 3 CN 114722813 A 3

专利 一种无监督中文分词系统及方法

专利一种无监督中文分词系统及方法