专利一种基于CNN-BiGRU的学术文本摘要自动分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210881427.1 (22)申请日 2022.07.26 (71)申请人郑州航空工业管理学院地址 450000 河南省郑州市二七区大学中路2号 (72)发明人薛丽　郑含笑　吴昊辰　张帅　李婧　陈明　王秋语　 (74)专利代理机构广东问道知识产权代理事务所(特殊普通合伙) 44826 专利代理师孙毅俊 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于CNN-Bi GRU的学术文本摘要自动分类方法 (57)摘要本发明涉及一种基于CNN ‑BIGRU的学术文本摘要自动分类方法，本发明有效解决了现有这对文本分类时分类精确率较低且检索效率低下的问题；解决的技术方案包括以下过程：数据集构建、文本向量化表示、模型训练、模型分类效果评估；通过CNN与BIGRU组合使用，能够对文本信息进行深层次的语义挖掘及多方面的提取文本特征，在此基础上进一步提高学术文本分类效果和检索效率，解决图书情报领域信息过载的问题。权利要求书2页说明书7页附图1页 CN 115186069 A 2022.10.14 CN 115186069 A 1.一种基于 CNN‑BiGRU的学术文本摘要自动分类方法，其特征在于，包括以下步骤： S1：数据集构建包括数据来源、数据清洗、分词及去停用词； S2：文本向量化将半结构化或非结构化的文本转换成计算机可理解和处理的向量表示，基于S1的分词结果，通过训练来预测特定词周边的其他单词； S3：模型训练及对比实验选取CNN‑BiGRU组合模型进行学术文本分类实验，并与KNN(K ‑近邻)、 NB(朴素贝叶斯)、 DT(决策树)、卷积神经网络(Convolutional Neural Network,CNN)、 BiLSTM(Bi ‑ directional Long Short‑Term Memory)双向长短期记忆网络、 Bi GRU(Bi‑Gate Recurrent Unit)门控制循环单元六种分类模型进行对比实验； S4：模型分类效果评估基于S3中的模型分类结构，选取准确率(Precision)、召回率(Recall)和F1值三个通用指标进行评估。 2.根据权利要求1所述的一种基于CNN ‑BiGRU的学术文本摘要自动分类方法，其特征在于，所述S2中采用Word2vec词向量的方法对文本内容进行向量化表示并且采用Skip ‑gram 方法训练词向量，具体过程如下： S2‑1：首先将输入层中的每一个词设置为N维向量(N代表词汇表中的单词个数)，其中每个词在其对应的维度设定为1，其他为0； S2‑2：在输入层到隐藏层之间，有一个N*K维的权重矩阵，将每个词向量乘以权重矩阵，到隐藏层之后数据的维度就变成了K维； S2‑3：隐藏层到输出层之间有一个K*N维的权重矩阵，隐藏层K维乘以此权重矩阵得到了N维输出； S2‑4：输出层对此N维向量应用Softmax激活函数，可以计算每个单词的生成概率； S2‑5：训练神经网络(也就是训练N*K以及 K*N这两个矩阵)，使用反向传播算法，每次迭代将权重沿梯度更优的方向更新，最后得到两个系数矩阵，进而也可以求得每个词所对应的K维向量； S2‑6：将训练好的词向量输入到embeddin g层，与其他特征向量连接后一同输入下一步骤的深度学习模型中进行训练。 3.根据权利要求2所述的一种基于CNN ‑BiGRU的学术文本摘要自动分类方法，其特征在于，所述S3中包括以下步骤： S3‑1： CNN层用于提取学术文本的局部特征； S3‑2：将CNN层处理得到的局部特征矩阵作为时间序列在t时刻输入到BiGRU中，用于提取学术文本的上下文特征； S3‑3：将最终得到的特征信息送入全连接层进行重新整合以及参数的微调并映射到样本标签空间，由Softmax层完成对文本数据的分类。 4.根据权利要求1所述的一种基于CNN ‑BiGRU的学术文本摘要自动分类方法，其特征在于，所述S4中准确率(Precision)代表被正确预测的样本占所有预测类别正确的样本的比例，计算公式如下所示：权　利　要　求　书 1/2 页 2 CN 115186069 A 2召回率(R)表示被正确预测的样本占所有真实类别正确样本的比例，其计算公式如下所示： F1值是基于准确率(P)和召回率(R)的调和平均值，其计算公式如下所示：权　利　要　求　书 2/2 页 3 CN 115186069 A 3

专利 一种基于CNN-BiGRU的学术文本摘要自动分类方法

专利一种基于CNN-BiGRU的学术文本摘要自动分类方法