说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111638197.8 (22)申请日 2021.12.2 9 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 周仁杰 胡天祥  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱亚冠 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于多任务双边分支网络的引文意图 分类方法 (57)摘要 本发明公开一种基于多任务双边分支网络 的引文意图分类方法, 为了缓解数据集不平衡问 题对模型性能造成影响, 采用双边分支网络作为 基础网络结构。 在训练过程中先获得原始数据 集, 还利用过采样技术生 成反转数据集以及构建 辅助数据集。 为了能够引入辅助数据集的信息采 用了多任务学习方法。 在构建模型时采用 SciBert模型作为嵌入层来提取输入的引文文本 的特征向量, 此外还利用注意力机制来构建注意 力层, 用于提高模型对引文文本中重要单词的注 意力, 降低对其他单词的关注度。 最后模型通过 一个自适应参数α在训练过程中转移模型的注 意力。 本发明提高了引文意图分类的准确性, 从 而可以更准确地预测引文的意图类别。 权利要求书4页 说明书8页 附图1页 CN 114328923 A 2022.04.12 CN 114328923 A 1.一种基于多任务双边分支网络的引文意图分类方法, 其特 征在于包括以下步骤: 步骤1: 获取带有 意图分类标签的引文文本 数据, 作为原数据集Do; 同时将整个原始数据 集划分成原 始数据集的训练集、 验证集、 测试集; 步骤2: 利用过采样方法对Do的训练集进行采样生成反转数据集Dr; 步骤3: 获取分类标签是 科学文献的章节名的引文 文本数据, 构建辅助数据集Da; 步骤4: 搭建基于多任务双边分支网络模型, 利用原数据集的训练集、 反转数据集、 辅助 数据集进行训练; 所述基于多任务双边分支网络模型包括输入层、 嵌入层、 注意力层、 辅助任务模块、 主 任务模块、 输出层; 所述输入层用于接收原数据集的训练集、 反转数据集、 辅助 数据集中的文本数据, 再对 文本数据进行 预处理操作; 所述嵌入层采用SciBer t模型, 用于将文本数据转 化成向量矩阵Ha、 Ho、 Hr; 所述注意力层包括第一文本注意力模块、 第二文本注意力模块; 所述辅助任务模块包括线性层、 Softmax函数层; 所述主任务模块包括连接层、 线性层、 Softmax函数层; 所述输出层接收辅助任务模块和主任务模块的输出; 步骤5: 利用训练好的基于多任务双边分支网络模型, 进行验证、 测试; 步骤6: 利用测试后的基于多任务双边分支网络模型实现对引文 文本的引文意图分类。 2.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征 在于步骤2具体是: 2‑1根据公式(1)计算原数据集的训练集中每 个类别的比率 其中 表示第cm个类别的样本数; Nmax表示样本数最多的类别对应样本数; 2‑2利用每个类别的比率 计算每个类别采样概 率 其中nc表示意图的类别数; 2‑3迭代采样: 2‑3‑1初始化利用库函数随机得到一个值num, num的取值范围为[0,1); 同时初始化变 量sum为0; 2‑3‑2对原数据集的训练集中每 个类别依次遍历 (1) 对于遍历到的 类别 , 利 用当前类别的 采样概率 更新sum的 值 , 即 (2)判断是否满足随机数num≤sum, 若是则从当前类别中随机挑选一个引文文本数据 加入到反转数据集中, 若否则不操作; (3)对下一个 类别进行遍历, 重复步骤(1) ‑(2), 直至 完成所有类别遍历;权 利 要 求 书 1/4 页 2 CN 114328923 A 22‑3‑3判断反转数据集中元素个数与原数据集的训练集是否相同, 若是则结束, 若否则 返回至步骤2 ‑3‑1。 3.根据权利要求2所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征 在于所述基于多任务双边分支网络模型中输入层所述的对文本数据进行预处理操作具体 是: 若原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记, 则将每个引 文文本中的该标记都删除; 然后采用分词工具将整个引文文本划分成一个个的单词, 同时 剔除标点符号以及停用词。 4.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征 在于SciBert模 型将输入层输入的原始数据集、 反转数据集、 辅助数据集中引文文本数据对 应的单词进 行向量化处理, 然后得到原始数据集、 反转数据集、 辅助数据集中引文文本对应 的向量矩阵; 具体是: 将每个单词xi, i∈[1,…n]转换成其对应的表示向量hi: hi=SciBer t(xi)     公式(3) 其中i是单词在引文 文本中的序号, n是引文 文本的单词总数; 然后将每 个单词的表示向量组成引文 文本的向量矩阵H: H=[h1,…,hn,…,hL]    公式(4) 其中 是引文文本的向量矩阵; d是每个单词的表示向量的长度, L是引文文本 的最长单词数。 5.根据权利要求4所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征 在于所述第一文本注意力模块接收嵌入层输出的Ha、 Ho, 对矩阵Ha、 Ho中的每个单词表示向 量hi先计算对应的权重βi, 然后再利用权重βi对矩阵Ha、 Ho加权求和获得原始数据集、 反转 数 据集中引文文本的表示向量sa、 so; 其中Ha、 Ho分别表示原始数据集、 反转数据集中引文文本 对应的向量矩阵; 所述第二文本注意力模块接收嵌入层输出的Hr, 对矩阵Hr中的每个单词表示向量hi先 计算对应的权重βi, 然后再利用权重βi对矩阵Hr加权求和获得辅助数据集中引文文本的表 示向量sr; 其中Hr表示辅助数据集中引文 文本对应的向量矩阵。 6.根据权利要求5所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征 在于所述辅助任务模块中线性层将注意力层输出的原始数据集中引文文本表示向量sa转 化为与辅助数据集中的类别数相同维度的输出向量Za, Za=Wasa+ba     公式(5) 其中sa表示原始数据集中引文文本的表示向量, Wa表示辅助任务的权重矩阵, ba表示辅 助任务的偏移向量, na表示辅助数据集中的类别数; 所述辅助任 务模块中Softmax函数层对输 出向量Za进行归一化处理, 计算预测结果中各 类别的概 率分布 其中ca∈[0,…,na]。 7.根据权利要求6所述的一种基于多任务双边分支网络的引文意图分类方法, 其特征权 利 要 求 书 2/4 页 3 CN 114328923 A 3

.PDF文档 专利 一种基于多任务双边分支网络的引文意图分类方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多任务双边分支网络的引文意图分类方法 第 1 页 专利 一种基于多任务双边分支网络的引文意图分类方法 第 2 页 专利 一种基于多任务双边分支网络的引文意图分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:54:49上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。