说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210589278.1 (22)申请日 2022.05.26 (71)申请人 华东理工大 学 地址 200237 上海市徐汇区梅陇路13 0号 (72)发明人 沈斌 房一泉 陈晓宁 刘倩  林晨 栾小建 高小伍 蔡源  程华 杜嘻嘻  (74)专利代理 机构 西安研创天下知识产权代理 事务所(普通 合伙) 61239 专利代理师 王文焕 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/34(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01)G06F 40/216(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于深度学习的子句级自动摘要模型系统 及摘要生成方法 (57)摘要 本发明公开了基于深度学习的子句级自动 摘要模型系统及摘要生成方法, 本模 型系统在使 用时, 首先利用句级抽取单元将原始数据进行字 句拆分, 构建输入字句; 利用基于BERT预训练模 型和Transformer模型的编码器对经句级抽取单 元构建的输入字句进行处理, 获得包含上下文语 义信息的子句的向量表示C ″i,j; 利用分类器对向 量表示进行初步筛选, 并输出初步候选子句摘 要; 最后通过基于BERTScore的摘要匹配器, 计算 候选子句摘要和原文的语义相似度, 得到与原文 语义最匹配的摘要; 本模型通过以子句作为抽取 单元, 能够同时平衡摘要信息的重要性和完整 性, 有效的解决了字句提取过程中的冗余问题, 具有摘要信息的完整性高、 提取速度快的特点。 权利要求书3页 说明书13页 附图1页 CN 115033659 A 2022.09.09 CN 115033659 A 1.基于深度学习的子句级自动摘要模型系统, 其特征在于: 包括句级抽取单元、 基于 BERT的编码器、 基于Transformer的编码器、 分类 器和基于BERTScore的摘要匹配 器; 所述句级抽取 单元用于将原 始数据进行字句拆分, 构建输入字句; 所述基于BERT的编码器和基于Transformer的编码器用于对输入字句进行处理, 获得 包含上下文语义信息的子句的向量表示C ″i,j; 所述分类器用于对经基于BERT的编码器和基于Transformer的编码器处理的向量表示 C″i,j进行初步筛 选, 并输出初步 候选子句摘要; 所述基于BERTScore的摘要匹配器用于计算候选子句摘要和原文的语义相似度, 得到 与原文语义 最匹配的摘要。 2.根据权利要求1所述的基于深度学习的子句级自动摘要模型系统, 其特 征在于: 所述的句级抽取 单元利用基于依存句法的启发式算法实现; 所述基于BERT的编码器 基于BERT预训练模型实现; 所述基于Transformer的编码器 基于Transformer模型实现; 所述分类 器层为多层感知器; 所述基于BERTScore的摘要匹配 器基于深度学习的自动评价指标BERTScore实现。 3.基于深度 学习的子句级自动摘要生成方法, 使用如权利要求1或2所述的自动摘要模 型系统实现, 其特 征在于: 包括 步骤 S1.首先利用句级抽取 单元将原始数据进行字句拆分, 构建输入字句; S2.利用基于BERT预训练模型和Transformer模型的编码器对经句级抽取单元构建的 输入字句进行处 理, 获得包 含上下文语义信息的子句的向量表示C ″i,j; S3.利用分类器对经基于BERT的编码器和基于Transformer的编码器处理的向量表示 进行初步筛 选, 并输出初步 候选子句摘要; S4.最后通过基于BERTScore的摘要匹配器, 计算候选子句摘要和原文的语义相似度, 得到与原文语义 最匹配的摘要, 即最佳摘要。 4.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 步骤 S1所述的句级抽取 单元的计算过程包括: (1)通过语法分析器解析整句得到依存关系, 表示成 “单词A, 标签, 单词B ”三元组形式; 其中, 标签表示单词A和单词B之间的语法关系; (2)使用三元组中代 表标点符号、 连词和从句关系的标签 拆分整句; (3)合并由特殊标签连接的单元, 包含关系子句修饰语、 状语子句修饰语、 同位语修饰 语和从句补语; (4)判断连接词conj连接的是两个子句还是两个短语, 当连接的两个元素之间的距离 小于固定阈值时, 认为连接的是两个短语, 合并为 一个子句, 否则认为连接的是两个子句; (5)预定义最小单元长度和最大单元长度, 当元素的单元长度小于最小单元长度时, 将 该元素与前一个元 素合并成一个子句, 否则将其视为 一个独立子句。 5.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 步骤 S2所述的基于BERT的编码器使用中, BERT作为分层编码器中的第一层编码器, 读取输入文 本, 输出原文中每 个子句的向量表示C ′i,j。 6.根据权利要求5所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 利用权 利 要 求 书 1/3 页 2 CN 115033659 A 2BERT预训练模型输出原文中每 个子句的向量表示C ′i,j的过程包括 (1)对于输入文档中的每个子句Ci,j, 句首加入[CLS]标签捕获子句特征, 该标记对应的 向量可用于后续分类任务, 而针对非分类任务, [ CLS]标记可忽略; 句末加入[SEP]标签 分隔 子句; (2)分别得到给定输入的标记嵌入、 分段嵌入和位置嵌入, 将其求和后构成最终向量表 示C′i,j; 其中, 标记嵌入表示词向量; 分段嵌入用于区分两种句子; 位置嵌入表示模型学习到的 位置信息 。 7.根据权利要求5所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 所述 的基于Transformer的编码器的计算过程包括: 在经过基于BERT的编码器获得子句向量表示C ′i,j之后, 为捕获文档级特征, 采用基于 Transformer的编码器进行二次编码, 通过Transformer的多头注意力机制获取表示: 其中, MHA( ·)表示Transformer中的多头注意力机制, LN( ·)表示层标准化, FFN( ·) 表示包含两个线性变换的前馈神经网络 。 8.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 步骤 S3所述的分类 器的计算过程包括 在经过基于BERT和Transformer的编码器之后, 将获得包含文档级特征的子句向量表 示C″i,j, 输入采用Sigmoi d的MLP分类器, 可将输出映射在(0,1)之间, 用来表示预测子句被 抽取的概 率: p(C″i,j)=σ(WoC″i,j+bo)     (5) 其中, σ(·)表示Sigmo id激活函数, Wo和bo表示可学习参数。 9.根据权利要求3所述的基于深度学习的子句级自动摘要生成方法, 其特征在于: 步骤 S4所述的利用基于BERTScore的摘要匹配器计算候选子句 摘要和原文的语义相似度的过程 包括 (1)经过分类器输出候选子句摘要后, 通过匹配参考句x和候选句 中每个标记计算召 回率、 精确率、 F1值, 使用贪婪算法最大化匹配相似度得分; (2)同时BERTScore引入重要性加权, 给不同的词赋予不同的权重, 给定M个参考句 词w的idf得分为: 其中, Γ(·)表示指示 函数; (3)使用带有idf权 重更新召回率和精确率; 权 利 要 求 书 2/3 页 3 CN 115033659 A 3

.PDF文档 专利 基于深度学习的子句级自动摘要模型系统及摘要生成方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习的子句级自动摘要模型系统及摘要生成方法 第 1 页 专利 基于深度学习的子句级自动摘要模型系统及摘要生成方法 第 2 页 专利 基于深度学习的子句级自动摘要模型系统及摘要生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。