说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210639693.3 (22)申请日 2022.06.07 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区黄桷垭崇文路2 号 (72)发明人 甘玲 易爱军 刘菊 胡柳慧  (74)专利代理 机构 北京同恒源知识产权代理有 限公司 1 1275 专利代理师 方钟苑 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 结合相对位置信息的弱监 督文本分类方法 (57)摘要 本发明涉及一种结合相对位置信息的弱监 督文本分类方法, 属于自然语言处理领域, 包括 以下步骤: S1: 输入初 始化种子词, 以及与初始化 种子词同类的为标记文档; S2: 生成伪标签; S3: 基于生成的伪标签训练Transformer文本分类 器; S4: 通过文本分类器为未标记的文本分配标 签; S5: 通过比较排序方法, 更新每一个类别的种 子词, 返回步骤S2进行迭代训练。 本发明提升了 模型的学习能力, 提高了分类的准确率。 权利要求书2页 说明书6页 附图1页 CN 114969343 A 2022.08.30 CN 114969343 A 1.一种结合相对位置信息的弱监 督文本分类方法, 其特 征在于: 包括以下步骤: S1: 输入初始化种子词, 以及与初始化种子词同类的为标记文档; S2: 生成伪标签; S3: 基于生成的伪标签训练Transformer文本分类 器; S4: 通过文本分类 器为未标记的文本分配标签; S5: 通过比较排序方法, 更新每一个 类别的种子词, 返回步骤S2进行迭代训练。 2.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤 S1中, 输入数据包 含两部分: 1)一组用户提 供的C类初始化种子词S={S1,S2,…SC},其中 表示i 类的ki个种子词; 2)一组属于 C类的n个未 标记文档U={U1,U2,…,Un}。 3.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤 S2中, 采用基于统计的方法, 为每 个文档分配的伪标签为种子词频率 最大所在的标签; 文档d被分配到的伪标签l(d)的计算公式如下 所示: 其中 表示上下文文档d中单词 的术语频率, SC表示类别C的种子词集 合。 4.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤 S3中, 使用Transformer的Enco nder作为文本分类 器; Transformer模型中位置编码计算公式如下: 其中, pos是指当前词在句子中的位置, i是指向量中每个值的索引, dmodel是指词向量的 维度, 在偶数位置使用正弦编码, 在奇数位置使用余弦编 码; 将位置向量与词向量相加得到 融合词向量; Transformer模型中多头自注意力机制计算公式如下: headi=Attention(QWiQ,KWiK,VWiV)    (5) MultiHead(Q,K,V)=Co ncat(head1,head2,…,headh)WO    (6) 其中, WiQ、 WiK、 WiV∈Rdmodel×dk,WO∈Rdmodel×dmodel, i=1,2, …,h,Q、 K、 V分别代表查询矩阵、 键矩阵和值矩阵, Q、 K、 V的值同等于融合词向量矩阵; WiQ、 WiK和WiV分别表示对Q、 K、 V进行线 性变换的矩阵, 将dmodel维的词向量映射到dk维空间; h代表头的数量, 每个头能捕获文本序 列中一个子空间信息, 执行h次自注意力机制然后进行拼接, 通过线性变换矩阵WO得到最终 的多头自注意力值。 5.根据权利要求4所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 在所 述Transformer模型中引入相对位置编码, 并且在每一层tran sformer的self ‑attention中权 利 要 求 书 1/2 页 2 CN 114969343 A 2都加入相对位置信息 。 6.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤 S4中, 对于给定的类别Cj和单词w, 根据以下三个指标来衡量 其重要性: (1)标签指示: 使用P(Cj|w)作为标签指示 性度量: 其中, 指预测为Cj类的文档总数, 指包含单词w的文档; (2)频率: 应用tanh函数对属于标签l的所有文档中种子词s的平均频率进行缩放, 得到 频率分数: 表示被预测为Cj类的文档中单词w的频率; (3)逆文档频率 IDF: 其中n为语料库D中的文档数量, fD,w表示单词w的文档频率; 最后使用几何平均数将所述的三个指标 结合起来, 得出Cj类单词w的聚合分数: R(Cj,w)=(LI×F×IDF(w)M)    (10) 基于所述聚合分数, 添加分数靠前的单词以扩展Cj类的种子词集 合。权 利 要 求 书 2/2 页 3 CN 114969343 A 3

.PDF文档 专利 结合相对位置信息的弱监督文本分类方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 结合相对位置信息的弱监督文本分类方法 第 1 页 专利 结合相对位置信息的弱监督文本分类方法 第 2 页 专利 结合相对位置信息的弱监督文本分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。