专利一种基于深度学习网络的短文本分类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111655718.0 (22)申请日 2021.12.3 0 (71)申请人江苏大学地址 212013 江苏省镇江市京口区学府路 301号 (72)发明人吴健　朱小龙　周从华　 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/216(2020.01) G06F 40/289(2020.01) G06N 20/00(2019.01) (54)发明名称一种基于深度学习网络的短文本分类方法 (57)摘要本发明涉及基于深度学习网络的短文本分类方法，属于自然语言处理技术领域。包括以下步骤：将短文本数据集进行数据清洗，得到质量更高的短文本数据集；将短文本数据集进行处理，得到短文本词汇表、关键词词汇表、标签词汇表；利用CBOW神经网络训练得到文本词向量，再将标签替换短文本中的关键词，训练得到标签词向量；将短文本输入卷积神经网络和长短期记忆神经网络进行特征提取，将提取的特征与标签词向量求和构成的查询向量进行注意力机制得分计算；将新的特征向量输入全连接层进行输出后，输入最终的损失函数层进行预测分类。本发明解决了短文本特征不足而无法准确分类的问题，提高了短文本分类的准确性。权利要求书2页说明书5页附图1页 CN 114357165 A 2022.04.15 CN 114357165 A 1.一种基于深度学习网络的短文本分类方法，其特征在于，包括以下步骤： S1：将短文本数据集进行数据清洗，得到处理后的短文本数据集；原始数据集的格式为 S(s,t)|t∈[1,k]，其中s代表短文本， t为对应的类别标签， k与文本类别总数相等； S2：将短文本数据集进行整理和切词，得到短文本词汇表、关键词词汇表、标签词汇表； S3：将短文本数据集输入CBOW神经网络训练得到文本词向量，再用文本标签替换短文本中的关键词，训练得到标签词向量； S4：将短文本数据集输入卷积神经网络和长短期记忆神经网络进行特征提取，将提取的特征与标签词向量求和得到查询向量，对查询向量进行注意力机制得分计算，得到卷积网络与长短期记忆网络输出的特征向量； S5：将步骤S4得到的特征向量输入全连接层进行输出后，输入最终的损失函数层进行预测分类。 2.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤 S1中的数据清洗的具体步骤包括： S11：将短文本数据集中的无效数据进行剔除，包括短文本与其类别标签不相符，短文本标签缺失，无效的短文本； S12：将短文本数据集中的重复数据及相似数据进行剔除，得到短文本数据集S ’。 3.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤 S2的具体步骤如下： S21：构建短文本词汇表：将数据清洗后的短文本数据集S ’进行整理，利用结巴分词进行单词切分，加入短文本词汇表Wt； S22：构建标签词汇表：手动将短文本的所有问句类型文本标签加入标签词汇表Wl； S23：构建关键词词汇表：将能够代表问句类型的一些关键词，加入关键词词汇表Wk。 4.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤 S3的具体步骤如下： S31：将数据清洗后的短文本数据集S ’输入CBOW神经网络得到短文本词汇表Wt的词向量表Vt； S32：将数据清洗后的短文本数据集S ’按百分之X的比例随机抽取得到子数据集S ”，将 S”中短文本 s的关键词用标签词汇表 Wl的文本标签替换，输入CBOW神经网络，训练得到标签词汇表Wl的词向量表 Vl。 5.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤 S4的具体步骤如下： S41：从短文本数据集S ’中按顺序逐条取出短文本数据s进行分词，得到ρ'＝{W1,..., Wn}，其中Wi为切分后的单词， n 为一条短文本s的单词个数； S42：将ρ'中的单词Wi作为键，在短文本词汇表中进行查询，得到ρ'的词向量表示ρ ”＝ {w1,...,wn}； S43：将ρ”同时输入长短期记忆神经网络和卷积神经网络进行特征抽取，分别得到中间特征向量： fleft,fright＝σ(Wxoxt+Whoht‑1+Wcoct‑1+bo)； cleft,cmid,cright＝max_pul l( σ(X*W(i,j) ))；权　利　要　求　书 1/2 页 2 CN 114357165 A 2其中， fleft,fright分别是长短期记忆神经网络正向和反向提取的特征向量， σ 为激活函数， Wxo、 Who、 Wco分别为当前隐藏层、输出门、输入门的权重矩阵， xt、 ht‑1、 ct‑1分别为当前隐藏层、输出门、输入门矩阵， bo是偏置参数权重矩阵；其中cleft,cmid,cright分别为卷积神经网络提取的三个特征， max_pull为池化函数， σ 为激活函数， X为权重矩阵， W(i,j)为第i行j列窗口的得分矩阵； S44：将步骤S43得到的长短期记忆神经网络与卷积神经网络输出的特征向量分别与注意力查询向量q进行向量乘计算，得到步骤S 43每一个中间特征向量的得分αi: q＝avge(x)|weight(x)； αi＝softmax(s(Xi,q))； s(xi,q)＝VTtanh(WXi+Uq)；其中q为注意力机制的查询向量， X为Vl步骤V32得到的向量， arge为取平均值计算， weight为带权重计算；其中αi为第i个向量与与q计算的得分， s(Xi,q)为矩阵计算， softmax为激活函数；其中V、 W、 U为权重矩阵， tanh为激活函数； S45：将步骤S44得到的得分αi与步骤S43的中间特征向量进行矩阵乘法计算并求平均值，得到最终的长短期记忆网络与卷积网络输出的特征向量r， c: r＝( α1fleft+α2fright)/2； c＝( α1cleft+α2cmid+α3cright)/3。 6.根据权利要求1所述的一种基于深度学习网络的短文本分类方法，其特征在于，步骤 S5的具体步骤如下： S51、将步骤S45得到的特征向量输入全连接层进行计算，输出得分最高的为分类结果，然后进行损失函数L oss的计算，修正模型参数：其中st为特征向量r输出的分类结果， st ’为特征向量c输出的分类结果。权　利　要　求　书 2/2 页 3 CN 114357165 A 3

专利 一种基于深度学习网络的短文本分类方法

专利一种基于深度学习网络的短文本分类方法