专利一种基于多任务双边分支网络的引文意图分类方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111638197.8 (22)申请日 2021.12.2 9 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人周仁杰　胡天祥　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱亚冠 (51)Int.Cl. G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于多任务双边分支网络的引文意图分类方法 (57)摘要本发明公开一种基于多任务双边分支网络的引文意图分类方法，为了缓解数据集不平衡问题对模型性能造成影响，采用双边分支网络作为基础网络结构。在训练过程中先获得原始数据集，还利用过采样技术生成反转数据集以及构建辅助数据集。为了能够引入辅助数据集的信息采用了多任务学习方法。在构建模型时采用 SciBert模型作为嵌入层来提取输入的引文文本的特征向量，此外还利用注意力机制来构建注意力层，用于提高模型对引文文本中重要单词的注意力，降低对其他单词的关注度。最后模型通过一个自适应参数α在训练过程中转移模型的注意力。本发明提高了引文意图分类的准确性，从而可以更准确地预测引文的意图类别。权利要求书4页说明书8页附图1页 CN 114328923 A 2022.04.12 CN 114328923 A 1.一种基于多任务双边分支网络的引文意图分类方法，其特征在于包括以下步骤：步骤1：获取带有意图分类标签的引文文本数据，作为原数据集Do；同时将整个原始数据集划分成原始数据集的训练集、验证集、测试集；步骤2：利用过采样方法对Do的训练集进行采样生成反转数据集Dr；步骤3：获取分类标签是科学文献的章节名的引文文本数据，构建辅助数据集Da；步骤4：搭建基于多任务双边分支网络模型，利用原数据集的训练集、反转数据集、辅助数据集进行训练；所述基于多任务双边分支网络模型包括输入层、嵌入层、注意力层、辅助任务模块、主任务模块、输出层；所述输入层用于接收原数据集的训练集、反转数据集、辅助数据集中的文本数据，再对文本数据进行预处理操作；所述嵌入层采用SciBer t模型，用于将文本数据转化成向量矩阵Ha、 Ho、 Hr；所述注意力层包括第一文本注意力模块、第二文本注意力模块；所述辅助任务模块包括线性层、 Softmax函数层；所述主任务模块包括连接层、线性层、 Softmax函数层；所述输出层接收辅助任务模块和主任务模块的输出；步骤5：利用训练好的基于多任务双边分支网络模型，进行验证、测试；步骤6：利用测试后的基于多任务双边分支网络模型实现对引文文本的引文意图分类。 2.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于步骤2具体是： 2‑1根据公式(1)计算原数据集的训练集中每个类别的比率其中表示第cm个类别的样本数； Nmax表示样本数最多的类别对应样本数； 2‑2利用每个类别的比率计算每个类别采样概率其中nc表示意图的类别数； 2‑3迭代采样： 2‑3‑1初始化利用库函数随机得到一个值num， num的取值范围为[0,1)；同时初始化变量sum为0； 2‑3‑2对原数据集的训练集中每个类别依次遍历 (1) 对于遍历到的类别，利用当前类别的采样概率更新sum的值，即 (2)判断是否满足随机数num≤sum，若是则从当前类别中随机挑选一个引文文本数据加入到反转数据集中，若否则不操作； (3)对下一个类别进行遍历，重复步骤(1) ‑(2)，直至完成所有类别遍历；权　利　要　求　书 1/4 页 2 CN 114328923 A 22‑3‑3判断反转数据集中元素个数与原数据集的训练集是否相同，若是则结束，若否则返回至步骤2 ‑3‑1。 3.根据权利要求2所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述基于多任务双边分支网络模型中输入层所述的对文本数据进行预处理操作具体是：若原始数据集的训练集和反转数据集中的文本数据包含#AUTHOR_TAG标记，则将每个引文文本中的该标记都删除；然后采用分词工具将整个引文文本划分成一个个的单词，同时剔除标点符号以及停用词。 4.根据权利要求1所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于SciBert模型将输入层输入的原始数据集、反转数据集、辅助数据集中引文文本数据对应的单词进行向量化处理，然后得到原始数据集、反转数据集、辅助数据集中引文文本对应的向量矩阵；具体是：将每个单词xi， i∈[1,…n]转换成其对应的表示向量hi: hi＝SciBer t(xi) 公式(3) 其中i是单词在引文文本中的序号， n是引文文本的单词总数；然后将每个单词的表示向量组成引文文本的向量矩阵H: H＝[h1,…,hn,…,hL] 公式(4) 其中是引文文本的向量矩阵； d是每个单词的表示向量的长度， L是引文文本的最长单词数。 5.根据权利要求4所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述第一文本注意力模块接收嵌入层输出的Ha、 Ho，对矩阵Ha、 Ho中的每个单词表示向量hi先计算对应的权重βi，然后再利用权重βi对矩阵Ha、 Ho加权求和获得原始数据集、反转数据集中引文文本的表示向量sa、 so；其中Ha、 Ho分别表示原始数据集、反转数据集中引文文本对应的向量矩阵；所述第二文本注意力模块接收嵌入层输出的Hr，对矩阵Hr中的每个单词表示向量hi先计算对应的权重βi，然后再利用权重βi对矩阵Hr加权求和获得辅助数据集中引文文本的表示向量sr；其中Hr表示辅助数据集中引文文本对应的向量矩阵。 6.根据权利要求5所述的一种基于多任务双边分支网络的引文意图分类方法，其特征在于所述辅助任务模块中线性层将注意力层输出的原始数据集中引文文本表示向量sa转化为与辅助数据集中的类别数相同维度的输出向量Za， Za＝Wasa+ba 公式(5) 其中sa表示原始数据集中引文文本的表示向量， Wa表示辅助任务的权重矩阵， ba表示辅助任务的偏移向量， na表示辅助数据集中的类别数；所述辅助任务模块中Softmax函数层对输出向量Za进行归一化处理，计算预测结果中各类别的概率分布其中ca∈[0,…,na]。 7.根据权利要求6所述的一种基于多任务双边分支网络的引文意图分类方法，其特征权　利　要　求　书 2/4 页 3 CN 114328923 A 3

专利 一种基于多任务双边分支网络的引文意图分类方法

专利一种基于多任务双边分支网络的引文意图分类方法