说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210881427.1 (22)申请日 2022.07.26 (71)申请人 郑州航空工业管理学院 地址 450000 河南省郑州市二七区大 学中 路2号 (72)发明人 薛丽 郑含笑 吴昊辰 张帅  李婧 陈明 王秋语  (74)专利代理 机构 广东问道知识产权代理事务 所(特殊普通 合伙) 44826 专利代理师 孙毅俊 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/242(2020.01)G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于CNN-Bi GRU的学术文本摘要自动分 类方法 (57)摘要 本发明涉及一种基于CNN ‑BIGRU的学术文本 摘要自动分类方法, 本发明有效解决了现有这对 文本分类时分类精确率较低且检索效率低下的 问题; 解决的技术方案包括以下过程: 数据集构 建、 文本向量化表示、 模 型训练、 模型分类效果评 估; 通过CNN与BIGRU组合使用, 能够对文本信息 进行深层次的语义挖掘及多方面的提取文本特 征, 在此基础上进一步提高学术文本分类效果和 检索效率, 解决图书情 报领域信息过 载的问题。 权利要求书2页 说明书7页 附图1页 CN 115186069 A 2022.10.14 CN 115186069 A 1.一种基于 CNN‑BiGRU的学术文本摘要自动分类方法, 其特 征在于, 包括以下步骤: S1: 数据集构建 包括数据来源、 数据清洗、 分词及去停用词; S2: 文本向量 化 将半结构化或非结构化的文本转换成计算机可理解和处理的向量表示, 基于S1的分词 结果, 通过训练来预测特定词周边的其 他单词; S3: 模型训练及对比实验 选取CNN‑BiGRU组合模型进行学术文本分类实验, 并与KNN(K ‑近邻)、 NB(朴素贝叶斯)、 DT(决策树)、 卷积神经网络(Convolutional  Neural Network,CNN)、 BiLSTM(Bi ‑ directional  Long Short‑Term Memory)双向长短期记忆网络、 Bi GRU(Bi‑Gate Recurrent   Unit)门控制循环单 元六种分类模型进行对比实验; S4: 模型分类效果评估 基于S3中的模型分类结构, 选取准确率(Precision)、 召回率(Recall)和F1值三个通用 指标进行评估。 2.根据权利 要求1所述的一种基于CNN ‑BiGRU的学术文本摘 要自动分类方法, 其特征在 于, 所述S2中采用Word2vec词向量的方法对文本内容进行 向量化表示并且采用Skip ‑gram 方法训练词向量, 具体过程如下: S2‑1: 首先将输入层中的每一个词设置为N维向量(N代表词汇表中的单词个数), 其中 每个词在其对应的维度设定为1, 其 他为0; S2‑2: 在输入层到隐藏层之间, 有一个N*K维的权重矩阵, 将每个词向量乘以权重矩阵, 到隐藏层之后数据的维度就变成了K维; S2‑3: 隐藏层到输出层之间有一个K*N维的权重矩阵, 隐藏层K维乘以此权重矩阵得到 了N维输出; S2‑4: 输出层对此N维向量应用Softmax激活函数, 可以计算每 个单词的生成概 率; S2‑5: 训练神经网络(也就是训练N*K以及 K*N这两个矩阵), 使用反向传播算法, 每次迭 代将权重沿梯度更优的方向更新, 最后得到两个系 数矩阵, 进而也可以求得每个词所对应 的K维向量; S2‑6: 将训练好的词向量输入到embeddin g层, 与其他特征向量连接后一同输入下一步 骤的深度学习模型中进行训练。 3.根据权利 要求2所述的一种基于CNN ‑BiGRU的学术文本摘 要自动分类方法, 其特征在 于, 所述S3中包括以下步骤: S3‑1: CNN层用于提取 学术文本的局部特 征; S3‑2: 将CNN层处理得到的局部特征矩阵作为时间序列在t时刻输入到BiGRU中, 用于提 取学术文本的上 下文特征; S3‑3: 将最终得到的特征信息送入全连接层进行重新整合以及参数的微调并 映射到样 本标签空间, 由Softmax层完成对文本数据的分类。 4.根据权利 要求1所述的一种基于CNN ‑BiGRU的学术文本摘 要自动分类方法, 其特征在 于, 所述S4中准确率(Precision)代表被正确预测的样本占所有预测类别正确的样本的比 例, 计算公式如下 所示:权 利 要 求 书 1/2 页 2 CN 115186069 A 2召回率(R)表示被正确预测的样本占所有真实类别正确样本的比例, 其计算公式如下 所示: F1值是基于准确率(P)和召回率(R)的调和平均值, 其计算公式如下 所示: 权 利 要 求 书 2/2 页 3 CN 115186069 A 3

.PDF文档 专利 一种基于CNN-BiGRU的学术文本摘要自动分类方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于CNN-BiGRU的学术文本摘要自动分类方法 第 1 页 专利 一种基于CNN-BiGRU的学术文本摘要自动分类方法 第 2 页 专利 一种基于CNN-BiGRU的学术文本摘要自动分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:52:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。