说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210570678.8 (22)申请日 2022.05.24 (71)申请人 苏州科技大 学 地址 215513 江苏省苏州市高新区滨河路 298号 申请人 江苏新希望科技有限公司 (72)发明人 奚雪峰 周悦尧 左严 崔志明  (74)专利代理 机构 江苏圣典律师事务所 32 237 专利代理师 王玉国 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 基于类名引导的弱监督文本分类系统及其 方法 (57)摘要 本发明涉及基于类名引导的弱监督文本分 类系统及方法, 由种子词生成模块, 对语料库中 语料学习向量表示、 建模关系、 生成种子词; 由伪 标签分配模块, 给语料库中的文档分配预测的伪 标签; 由文档分类器模块, 根据已分配伪标签的 文档进行预训练, 在未标注文档上泛化训练; 由 种子词扩展模块, 在一次分类完成后, 通过对分 类结果以及生成种子词 时产生的排名分数进行 综合考虑, 以此扩展种子词。 首先, 将类名与语料 库进行种子词生成; 迭代地将种子词生成之后的 种子词运用于伪标签分配, 使用分配了伪标签的 文档训练文档分类器, 通过预测的结果扩展种子 词; 等到迭代次数结束, 输 出分类结果。 减少高质 量标注语料库的依赖, 解决缓解文本分类领域的 数据稀缺问题。 权利要求书2页 说明书6页 附图2页 CN 114911938 A 2022.08.16 CN 114911938 A 1.基于类名引导的弱监督文本分类系统, 其特征在于: 包含种子词生成模块(1)、 伪标 签分配模块(2)、 文档分类 器模块(3)以及种子词扩展模块(4); 所述种子词生成模块(1), 对语料库中语料 学习向量表示、 建模关系 、 生成种子词; 所述伪标签分配模块(2), 给语料库中的文档分配预测的伪标签; 所述文档分类器模块(3), 根据已分配伪标签的文档进行预训练, 在未标注文档上泛化 训练; 所述种子词扩展模块(4), 在一次分类完成后, 通过对分类结果以及生成种子词时产生 的排名分数进行综合 考虑, 以此扩展种子词。 2.根据权利要求1所述的基于类名引导的弱监督文本分类系统, 其特征在于: 所述种子 词生成模块(1)包含生成模块(101)和挑选模块(102), 所述生成模块(101), 用于学习向量 表示、 建模关系, 将类名与语料库中的文档进行建模, 通过相似度计算, 得到一系列语义相 关的单词; 所述挑选模块(102), 用于生成种子词, 将得到的语义相关单词联合考虑语义特 异性, 得出单词排名分数, 以便生成高质量的种子词。 3.根据权利要求1所述的基于类名引导的弱监督文本分类系统, 其特征在于: 所述伪标 签分配模块(2), 统计种子词生成模块(1)生成的高质量种子词在文档中出现 的频率, 并结 合种子词生成模块(1)得 出的单词排名分数, 给 未标注的文档分配伪标签。 4.根据权利要求1所述的基于类名引导的弱监督文本分类系统, 其特征在于: 所述文档 分类器模块(3), 采用层次注意力模型作为分类器, 先关注文档中的句子, 找到文档中的重 要句子, 然后关注句子中的单词, 识别句子中的重要单词; 接着采用伪标签分配模块(2)生 成的伪标签在未 标记的文档数据上训练一个HAN模型。 5.根据权利要求1所述的基于类名引导的弱监督文本分类系统, 其特征在于: 所述种子 词扩展模块(4), 通过将文档分类器模块(3)所得到的对文档的预测概率与种子词在预测的 文档中的出现频率进 行综合考虑, 计算出扩展分数; 种子词扩展模块(4)扩充种子词生成模 块(1)的种子词集, 通过伪标签分配模块(2)再次分配伪标签, 然后训练文档分类器模块 (3), 直至收敛。 6.权利要求1所述的系统实现基于类名引导的弱监督文本分类方法, 其特征在于: 包括 以下步骤: 首先, 将类名与语料库进行种子词生成; 然后, 迭代地将种子词生成之后的种子词运用于伪标签分配, 使用分配了伪标签的文 档训练文档分类 器, 通过预测的结果扩展种子词; 最后, 等到迭代次数 结束, 输出分类结果。 7.根据权利要求6所述的基于类名引导的弱监督文本分类方法, 其特征在于: 由种子词 生成模块(1), 对语料库中语料学习向量表示、 建模关系、 生成种子词; 由伪标签分配模块 (2), 给语料库中的文档分配预测的伪标签; 由文档分类器模块(3), 根据已分配伪标签的文 档进行预训练, 接着在未标注文档上泛化训练; 由种子词扩展模块(4), 在一次分类完成后, 通过对分类结果以及生成种子词时产生的排名分数进行综合 考虑, 以此扩展种子词。 8.根据权利要求6所述的基于类名引导的弱监督文本分类方法, 其特征在于: 由种子词 生成模块(1)的生成模块(101)将类名与语料库中的文档进行建模, 通过相 似度计算, 得到 一系列语义相关 的单词; 由种子词生成模块(1)的挑选模块(102), 将得到的语义相关单词权 利 要 求 书 1/2 页 2 CN 114911938 A 2联合考虑语义特异性, 得 出单词排名分数, 以便生成高质量的种子词; 种子词生成模块(1)中的生成模块(101)采用冯米塞尔分布, 对类名与语料库进行建 模, 并使用相似度计算获得一组单词, 计算如下: 冯米塞尔分布, xw是语料库中单词的m维向量, 是阶的第一类修正贝塞尔函 数; 冯米塞尔分布有平均方向和集中参数两个参数, 标签名向量ul被作为平均方向, 其他单 词在标签名附近的集中程度kl被作为集中参数, 分布 表达式: 相似度计算, 余弦相似度可提取单词间的语义相关性, 从而获得一系列与类名相关的 单词, 通过向量 余弦相似度获取一组与标签名l高度语义相关的单词Wk: 冯米塞尔分布是一个球形分布, 与中心词语义相关的会聚集在中心词四周, 通过相似 度计算, 可获得一系列 与类名相关的单词; 种子词生成模块(1)的挑选模块(102), 使用语义特异性, 并联合相似度计算, 来获取最 终的种子词, 计算如下: 语义特异性, 如果单词v的含义包含另一个单词w含义, 那么单词v的所有上下文特征会 在单词w中出现; 使用标量SCw, l将单词w与标签名l关联, SCw, l越大时, 表明单词w的语义较标 签名l而言更 具体且排 他; 将单词的SCw, l值进行归一 化操作, 以此 得到语义特异性分数: 由伪标签分配模块(2), 给语料库中的文档分配预测的伪标签; 由文档分类器模块(3), 根据已分配伪标签的文档进行预训练, 接着在未标注文档上泛 化训练; 由种子词扩展模块(4), 在一 次分类完成后, 通过对分类结果以及生成种子词时产生的 排名分数进行综合 考虑, 以此扩展种子词; 种子词扩展模块(4)扩充种子词生成模块(1)的种子词集, 通过伪标签分配模块(2)再 次分配伪标签, 然后训练文档分类 器模块(3), 直至收敛。权 利 要 求 书 2/2 页 3 CN 114911938 A 3

.PDF文档 专利 基于类名引导的弱监督文本分类系统及其方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于类名引导的弱监督文本分类系统及其方法 第 1 页 专利 基于类名引导的弱监督文本分类系统及其方法 第 2 页 专利 基于类名引导的弱监督文本分类系统及其方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。