专利基于深度学习的子句级自动摘要模型系统及摘要生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210589278.1 (22)申请日 2022.05.26 (71)申请人华东理工大学地址 200237 上海市徐汇区梅陇路13 0号 (72)发明人沈斌　房一泉　陈晓宁　刘倩　林晨　栾小建　高小伍　蔡源　程华　杜嘻嘻　 (74)专利代理机构西安研创天下知识产权代理事务所(普通合伙) 61239 专利代理师王文焕 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01)G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于深度学习的子句级自动摘要模型系统及摘要生成方法 (57)摘要本发明公开了基于深度学习的子句级自动摘要模型系统及摘要生成方法，本模型系统在使用时，首先利用句级抽取单元将原始数据进行字句拆分，构建输入字句；利用基于BERT预训练模型和Transformer模型的编码器对经句级抽取单元构建的输入字句进行处理，获得包含上下文语义信息的子句的向量表示C ″i,j；利用分类器对向量表示进行初步筛选，并输出初步候选子句摘要；最后通过基于BERTScore的摘要匹配器，计算候选子句摘要和原文的语义相似度，得到与原文语义最匹配的摘要；本模型通过以子句作为抽取单元，能够同时平衡摘要信息的重要性和完整性，有效的解决了字句提取过程中的冗余问题，具有摘要信息的完整性高、提取速度快的特点。权利要求书3页说明书13页附图1页 CN 115033659 A 2022.09.09 CN 115033659 A 1.基于深度学习的子句级自动摘要模型系统，其特征在于：包括句级抽取单元、基于 BERT的编码器、基于Transformer的编码器、分类器和基于BERTScore的摘要匹配器；所述句级抽取单元用于将原始数据进行字句拆分，构建输入字句；所述基于BERT的编码器和基于Transformer的编码器用于对输入字句进行处理，获得包含上下文语义信息的子句的向量表示C ″i,j；所述分类器用于对经基于BERT的编码器和基于Transformer的编码器处理的向量表示 C″i,j进行初步筛选，并输出初步候选子句摘要；所述基于BERTScore的摘要匹配器用于计算候选子句摘要和原文的语义相似度，得到与原文语义最匹配的摘要。 2.根据权利要求1所述的基于深度学习的子句级自动摘要模型系统，其特征在于：所述的句级抽取单元利用基于依存句法的启发式算法实现；所述基于BERT的编码器基于BERT预训练模型实现；所述基于Transformer的编码器基于Transformer模型实现；所述分类器层为多层感知器；所述基于BERTScore的摘要匹配器基于深度学习的自动评价指标BERTScore实现。 3.基于深度学习的子句级自动摘要生成方法，使用如权利要求1或2所述的自动摘要模型系统实现，其特征在于：包括步骤 S1.首先利用句级抽取单元将原始数据进行字句拆分，构建输入字句； S2.利用基于BERT预训练模型和Transformer模型的编码器对经句级抽取单元构建的输入字句进行处理，获得包含上下文语义信息的子句的向量表示C ″i,j； S3.利用分类器对经基于BERT的编码器和基于Transformer的编码器处理的向量表示进行初步筛选，并输出初步候选子句摘要； S4.最后通过基于BERTScore的摘要匹配器，计算候选子句摘要和原文的语义相似度，得到与原文语义最匹配的摘要，即最佳摘要。 4.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法，其特征在于：步骤 S1所述的句级抽取单元的计算过程包括： (1)通过语法分析器解析整句得到依存关系，表示成 “单词A，标签，单词B ”三元组形式；其中，标签表示单词A和单词B之间的语法关系； (2)使用三元组中代表标点符号、连词和从句关系的标签拆分整句； (3)合并由特殊标签连接的单元，包含关系子句修饰语、状语子句修饰语、同位语修饰语和从句补语； (4)判断连接词conj连接的是两个子句还是两个短语，当连接的两个元素之间的距离小于固定阈值时，认为连接的是两个短语，合并为一个子句，否则认为连接的是两个子句； (5)预定义最小单元长度和最大单元长度，当元素的单元长度小于最小单元长度时，将该元素与前一个元素合并成一个子句，否则将其视为一个独立子句。 5.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法，其特征在于：步骤 S2所述的基于BERT的编码器使用中， BERT作为分层编码器中的第一层编码器，读取输入文本，输出原文中每个子句的向量表示C ′i,j。 6.根据权利要求5所述的基于深度学习的子句级自动摘要生成方法，其特征在于：利用权　利　要　求　书 1/3 页 2 CN 115033659 A 2BERT预训练模型输出原文中每个子句的向量表示C ′i,j的过程包括 (1)对于输入文档中的每个子句Ci,j，句首加入[CLS]标签捕获子句特征，该标记对应的向量可用于后续分类任务，而针对非分类任务， [ CLS]标记可忽略；句末加入[SEP]标签分隔子句； (2)分别得到给定输入的标记嵌入、分段嵌入和位置嵌入，将其求和后构成最终向量表示C′i,j；其中，标记嵌入表示词向量；分段嵌入用于区分两种句子；位置嵌入表示模型学习到的位置信息。 7.根据权利要求5所述的基于深度学习的子句级自动摘要生成方法，其特征在于：所述的基于Transformer的编码器的计算过程包括：在经过基于BERT的编码器获得子句向量表示C ′i,j之后，为捕获文档级特征，采用基于 Transformer的编码器进行二次编码，通过Transformer的多头注意力机制获取表示：其中， MHA( ·)表示Transformer中的多头注意力机制， LN( ·)表示层标准化， FFN( ·) 表示包含两个线性变换的前馈神经网络。 8.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法，其特征在于：步骤 S3所述的分类器的计算过程包括在经过基于BERT和Transformer的编码器之后，将获得包含文档级特征的子句向量表示C″i,j，输入采用Sigmoi d的MLP分类器，可将输出映射在(0,1)之间，用来表示预测子句被抽取的概率： p(C″i,j)＝σ(WoC″i,j+bo) (5) 其中， σ(·)表示Sigmo id激活函数， Wo和bo表示可学习参数。 9.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法，其特征在于：步骤 S4所述的利用基于BERTScore的摘要匹配器计算候选子句摘要和原文的语义相似度的过程包括 (1)经过分类器输出候选子句摘要后，通过匹配参考句x和候选句中每个标记计算召回率、精确率、 F1值，使用贪婪算法最大化匹配相似度得分； (2)同时BERTScore引入重要性加权，给不同的词赋予不同的权重，给定M个参考句词w的idf得分为：其中， Γ(·)表示指示函数； (3)使用带有idf权重更新召回率和精确率；权　利　要　求　书 2/3 页 3 CN 115033659 A 3

专利 基于深度学习的子句级自动摘要模型系统及摘要生成方法

专利基于深度学习的子句级自动摘要模型系统及摘要生成方法