专利基于类名引导的弱监督文本分类系统及其方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210570678.8 (22)申请日 2022.05.24 (71)申请人苏州科技大学地址 215513 江苏省苏州市高新区滨河路 298号申请人江苏新希望科技有限公司 (72)发明人奚雪峰　周悦尧　左严　崔志明　 (74)专利代理机构江苏圣典律师事务所 32 237 专利代理师王玉国 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称基于类名引导的弱监督文本分类系统及其方法 (57)摘要本发明涉及基于类名引导的弱监督文本分类系统及方法，由种子词生成模块，对语料库中语料学习向量表示、建模关系、生成种子词；由伪标签分配模块，给语料库中的文档分配预测的伪标签；由文档分类器模块，根据已分配伪标签的文档进行预训练，在未标注文档上泛化训练；由种子词扩展模块，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词。首先，将类名与语料库进行种子词生成；迭代地将种子词生成之后的种子词运用于伪标签分配，使用分配了伪标签的文档训练文档分类器，通过预测的结果扩展种子词；等到迭代次数结束，输出分类结果。减少高质量标注语料库的依赖，解决缓解文本分类领域的数据稀缺问题。权利要求书2页说明书6页附图2页 CN 114911938 A 2022.08.16 CN 114911938 A 1.基于类名引导的弱监督文本分类系统，其特征在于：包含种子词生成模块(1)、伪标签分配模块(2)、文档分类器模块(3)以及种子词扩展模块(4)；所述种子词生成模块(1)，对语料库中语料学习向量表示、建模关系、生成种子词；所述伪标签分配模块(2)，给语料库中的文档分配预测的伪标签；所述文档分类器模块(3)，根据已分配伪标签的文档进行预训练，在未标注文档上泛化训练；所述种子词扩展模块(4)，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词。 2.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述种子词生成模块(1)包含生成模块(101)和挑选模块(102)，所述生成模块(101)，用于学习向量表示、建模关系，将类名与语料库中的文档进行建模，通过相似度计算，得到一系列语义相关的单词；所述挑选模块(102)，用于生成种子词，将得到的语义相关单词联合考虑语义特异性，得出单词排名分数，以便生成高质量的种子词。 3.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述伪标签分配模块(2)，统计种子词生成模块(1)生成的高质量种子词在文档中出现的频率，并结合种子词生成模块(1)得出的单词排名分数，给未标注的文档分配伪标签。 4.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述文档分类器模块(3)，采用层次注意力模型作为分类器，先关注文档中的句子，找到文档中的重要句子，然后关注句子中的单词，识别句子中的重要单词；接着采用伪标签分配模块(2)生成的伪标签在未标记的文档数据上训练一个HAN模型。 5.根据权利要求1所述的基于类名引导的弱监督文本分类系统，其特征在于：所述种子词扩展模块(4)，通过将文档分类器模块(3)所得到的对文档的预测概率与种子词在预测的文档中的出现频率进行综合考虑，计算出扩展分数；种子词扩展模块(4)扩充种子词生成模块(1)的种子词集，通过伪标签分配模块(2)再次分配伪标签，然后训练文档分类器模块 (3)，直至收敛。 6.权利要求1所述的系统实现基于类名引导的弱监督文本分类方法，其特征在于：包括以下步骤：首先，将类名与语料库进行种子词生成；然后，迭代地将种子词生成之后的种子词运用于伪标签分配，使用分配了伪标签的文档训练文档分类器，通过预测的结果扩展种子词；最后，等到迭代次数结束，输出分类结果。 7.根据权利要求6所述的基于类名引导的弱监督文本分类方法，其特征在于：由种子词生成模块(1)，对语料库中语料学习向量表示、建模关系、生成种子词；由伪标签分配模块 (2)，给语料库中的文档分配预测的伪标签；由文档分类器模块(3)，根据已分配伪标签的文档进行预训练，接着在未标注文档上泛化训练；由种子词扩展模块(4)，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词。 8.根据权利要求6所述的基于类名引导的弱监督文本分类方法，其特征在于：由种子词生成模块(1)的生成模块(101)将类名与语料库中的文档进行建模，通过相似度计算，得到一系列语义相关的单词；由种子词生成模块(1)的挑选模块(102)，将得到的语义相关单词权　利　要　求　书 1/2 页 2 CN 114911938 A 2联合考虑语义特异性，得出单词排名分数，以便生成高质量的种子词；种子词生成模块(1)中的生成模块(101)采用冯米塞尔分布，对类名与语料库进行建模，并使用相似度计算获得一组单词，计算如下：冯米塞尔分布， xw是语料库中单词的m维向量，是阶的第一类修正贝塞尔函数；冯米塞尔分布有平均方向和集中参数两个参数，标签名向量ul被作为平均方向，其他单词在标签名附近的集中程度kl被作为集中参数，分布表达式：相似度计算，余弦相似度可提取单词间的语义相关性，从而获得一系列与类名相关的单词，通过向量余弦相似度获取一组与标签名l高度语义相关的单词Wk：冯米塞尔分布是一个球形分布，与中心词语义相关的会聚集在中心词四周，通过相似度计算，可获得一系列与类名相关的单词；种子词生成模块(1)的挑选模块(102)，使用语义特异性，并联合相似度计算，来获取最终的种子词，计算如下：语义特异性，如果单词v的含义包含另一个单词w含义，那么单词v的所有上下文特征会在单词w中出现；使用标量SCw， l将单词w与标签名l关联， SCw， l越大时，表明单词w的语义较标签名l而言更具体且排他；将单词的SCw， l值进行归一化操作，以此得到语义特异性分数：由伪标签分配模块(2)，给语料库中的文档分配预测的伪标签；由文档分类器模块(3)，根据已分配伪标签的文档进行预训练，接着在未标注文档上泛化训练；由种子词扩展模块(4)，在一次分类完成后，通过对分类结果以及生成种子词时产生的排名分数进行综合考虑，以此扩展种子词；种子词扩展模块(4)扩充种子词生成模块(1)的种子词集，通过伪标签分配模块(2)再次分配伪标签，然后训练文档分类器模块(3)，直至收敛。权　利　要　求　书 2/2 页 3 CN 114911938 A 3

专利 基于类名引导的弱监督文本分类系统及其方法

专利基于类名引导的弱监督文本分类系统及其方法