(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210639693.3
(22)申请日 2022.06.07
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区黄桷垭崇文路2
号
(72)发明人 甘玲 易爱军 刘菊 胡柳慧
(74)专利代理 机构 北京同恒源知识产权代理有
限公司 1 1275
专利代理师 方钟苑
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/216(2020.01)
G06F 40/30(2020.01)
(54)发明名称
结合相对位置信息的弱监 督文本分类方法
(57)摘要
本发明涉及一种结合相对位置信息的弱监
督文本分类方法, 属于自然语言处理领域, 包括
以下步骤: S1: 输入初 始化种子词, 以及与初始化
种子词同类的为标记文档; S2: 生成伪标签; S3:
基于生成的伪标签训练Transformer文本分类
器; S4: 通过文本分类器为未标记的文本分配标
签; S5: 通过比较排序方法, 更新每一个类别的种
子词, 返回步骤S2进行迭代训练。 本发明提升了
模型的学习能力, 提高了分类的准确率。
权利要求书2页 说明书6页 附图1页
CN 114969343 A
2022.08.30
CN 114969343 A
1.一种结合相对位置信息的弱监 督文本分类方法, 其特 征在于: 包括以下步骤:
S1: 输入初始化种子词, 以及与初始化种子词同类的为标记文档;
S2: 生成伪标签;
S3: 基于生成的伪标签训练Transformer文本分类 器;
S4: 通过文本分类 器为未标记的文本分配标签;
S5: 通过比较排序方法, 更新每一个 类别的种子词, 返回步骤S2进行迭代训练。
2.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤
S1中, 输入数据包 含两部分:
1)一组用户提 供的C类初始化种子词S={S1,S2,…SC},其中
表示i
类的ki个种子词;
2)一组属于 C类的n个未 标记文档U={U1,U2,…,Un}。
3.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤
S2中, 采用基于统计的方法, 为每 个文档分配的伪标签为种子词频率 最大所在的标签;
文档d被分配到的伪标签l(d)的计算公式如下 所示:
其中
表示上下文文档d中单词
的术语频率, SC表示类别C的种子词集 合。
4.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤
S3中, 使用Transformer的Enco nder作为文本分类 器;
Transformer模型中位置编码计算公式如下:
其中, pos是指当前词在句子中的位置, i是指向量中每个值的索引, dmodel是指词向量的
维度, 在偶数位置使用正弦编码, 在奇数位置使用余弦编 码; 将位置向量与词向量相加得到
融合词向量;
Transformer模型中多头自注意力机制计算公式如下:
headi=Attention(QWiQ,KWiK,VWiV) (5)
MultiHead(Q,K,V)=Co ncat(head1,head2,…,headh)WO (6)
其中, WiQ、 WiK、 WiV∈Rdmodel×dk,WO∈Rdmodel×dmodel, i=1,2, …,h,Q、 K、 V分别代表查询矩阵、
键矩阵和值矩阵, Q、 K、 V的值同等于融合词向量矩阵; WiQ、 WiK和WiV分别表示对Q、 K、 V进行线
性变换的矩阵, 将dmodel维的词向量映射到dk维空间; h代表头的数量, 每个头能捕获文本序
列中一个子空间信息, 执行h次自注意力机制然后进行拼接, 通过线性变换矩阵WO得到最终
的多头自注意力值。
5.根据权利要求4所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 在所
述Transformer模型中引入相对位置编码, 并且在每一层tran sformer的self ‑attention中权 利 要 求 书 1/2 页
2
CN 114969343 A
2都加入相对位置信息 。
6.根据权利要求1所述的结合相对位置信 息的弱监督文本分类方法, 其特征在于: 步骤
S4中, 对于给定的类别Cj和单词w, 根据以下三个指标来衡量 其重要性:
(1)标签指示: 使用P(Cj|w)作为标签指示 性度量:
其中,
指预测为Cj类的文档总数,
指包含单词w的文档;
(2)频率: 应用tanh函数对属于标签l的所有文档中种子词s的平均频率进行缩放, 得到
频率分数:
表示被预测为Cj类的文档中单词w的频率;
(3)逆文档频率 IDF:
其中n为语料库D中的文档数量, fD,w表示单词w的文档频率;
最后使用几何平均数将所述的三个指标 结合起来, 得出Cj类单词w的聚合分数:
R(Cj,w)=(LI×F×IDF(w)M) (10)
基于所述聚合分数, 添加分数靠前的单词以扩展Cj类的种子词集 合。权 利 要 求 书 2/2 页
3
CN 114969343 A
3
专利 结合相对位置信息的弱监督文本分类方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:14:24上传分享