说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210962724.9 (22)申请日 2022.08.11 (71)申请人 山西大学 地址 030006 山西省太原市坞城路9 2号 (72)发明人 杨陟卓 蔡志宇 张虎 李茹  (74)专利代理 机构 太原申立德知识产权代理事 务所(特殊普通 合伙) 14115 专利代理师 郭海燕 (51)Int.Cl. G06N 5/02(2006.01) G06N 20/00(2019.01) (54)发明名称 一种融合CPT和最优化模 型的考试阅读理解 答案句概 括方法 (57)摘要 本发明属于自然语 言处理技术领域, 公开了 一种融合CPT和最优化模型的考试阅读理解答案 句概括方法。 本发明基于CPT模型对背景材料答 案句进行概括总结, 并综合使用语义权威度、 问 题匹配度、 依存句法、 句子长度等多种因素优化 CPT模型输出的文本, 生成信息准确、 与问题匹配 度高、 句法结构完整且对答案要点进行归纳概括 的答案句, 提升了问答型阅读理解系统的概括总 结能力。 本申请的成果可应用到教育考试辅导平 台中, 为科技教育提供有效的技 术解决方案 。 权利要求书3页 说明书11页 附图4页 CN 115329960 A 2022.11.11 CN 115329960 A 1.一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 包括以下 步骤: 步骤S1, 构建概 括总结语料库; 步骤S2, 使用概 括总结语料库对CPT模型进行训练和微调; 步骤S3, 将背景 材料答案句输入步骤2训练和微调后的CPT模型进行概 括总结; 步骤S4, 综合语义权威度、 问题匹配度和句法结构重要度计算背景材料答案句中词语 的可信度; 步骤S5, 利用最优化模型优化CPT模型输出的文本, 重新生成新的答案句, 完成考试阅 读理解答案句的概 括。 2.根据权利要求1所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 所述步骤1中构建概括总结语料库具体为: 采用语料(1)各省历年的考试问答 真题和模拟题; (2)组卷网爬取的考试阅读理解问答题; (3)NLPCC2017会议的中文单文档摘 要测评任务数据集; 首先, 将原文中的句子按照标点符号分成单句, 然后根据如下公式计算 概括句与原文中每一个句子的相似度, 选择原文中相似度最高的句子作为概括句的对应 句, 构建概 括总结语料库; 其中, 表示摘要中第i个概括句Si的词集合, 表示原文中第j个句子Pj的词集合, wk 表示句子中的词语。 3.根据权利要求2所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 所述步骤S2中使用概括总结语料库对CPT模型进 行训练和微调具体为: 在概括 总结语料库源句子和目标句的首部和尾部分别添加特殊标记 “CLS”和“SEP”, 源句子序列输 入CPT模型的共享编码器, 目标句序列输入生成解码器, 对CPT模型进行训练和微调, 使得 CPT模型具备去除冗余信息和归纳总结的能力。 4.根据权利要求3所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 所述步骤S3中将背景材料答案句输入步骤S2训练和微调后的CPT模型进行概 括总结具体为: 将背景材料答案句S={w1,w2,...,wm}输入到训练好的CPT模型中, m表示背 景材料答案句中词语的个数, wi表示句中第i个词语, 生成较为精炼且具有权威信息的答案 句, 即概括的答案句T={t1,t2,...,tn}。 5.根据权利要求4所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 所述步骤S4中综合语义权威度、 问题匹配度和句法结构重要度计算背景材料 答案句中词语的可信度具体包括以下步骤: 步骤S4.1, 根据步骤3CPT模型生成的文本计算词语的语义权威度αi, CPT模型生成的概 括答案句文本表达了原句, 即背景材料答案句的主要含义, 如果原句S={w1,w2,...,wm}中 的词语wi在CPT模型生成的文本T ={t1,t2,...,tn}中, 将词语wi的语义权威度αi设为1, 否则 设置为0; 步骤S4.2, 结合Word2Vec和HowNet计算词语与问句的匹配度simi, 词语与问句的匹配度 有利于召回原句中与问句更相关的词语, 计算公式如下 所示:权 利 要 求 书 1/3 页 2 CN 115329960 A 2其中Q*表示问句Q去停用 词后的词语列表, qj表示列表中的词语, 表示利用 Word2Vec计算wi和qj的词向量余弦相似度, 和 分别表示wi和qj的词向量, simHowNet (wi,qj)表示通过HowNet计算wi和qj的相似度, β1和β2为需要设置的正 参数, β1+β2=1; 步骤S4.3, 根据词语在依存句法分析树中的深度计算词语的句法结构重要度stri; 越接 近树根节点的词语成为句 子主要成分的概率越大, 远离根节点、 深度越大 的词语越有可能 对原句的意 义没有影响, 计算公式如下 所示: stri=‑depi                          (4) 其中, depi表示词语wi在依存句法分析树中的深度, 规定树根节点的深度为0, 根节点的 直接子节点深度为1, 依此类 推; 步骤S4.4, 结合语义权威度αi、 问句匹配度simi和句法结构重要度stri三种因素计算词 语的可信度Ii: Ii= λ1×αi+λ2×simi+λ3×stri                (5) 其中λ1、 λ2和 λ3为需要设置的正 参数。 6.根据权利要求5所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 所述步骤S 5中利用最优化模 型优化CPT模型输出的文本, 重新生成新的答案句 包括以下步骤: 步骤S5.1, 通过词语可信度构造最优化模型目标函数, 用于权威信息和冗余词语的选 择, 保证生成答案句信息的正确性: 其中, m表示背景材料答案句中词语的个数, yi表示句中第i个词语wi是否应被删除或保 留的标签, 如果yi=1, 词语wi被保留, 如果yi=0, 词语wi被删除, Ii表示词语wi的可信度; 步骤S5.2, 引入句法结构完整性、 语义正确性以及连贯性约束保证生成答案句的通畅 性, 同时引入句子 长度约束控制生成答案句的长度; (1)句法结构完整性约束 在优化的答案句中, 如果子节点词被保留, 那么它的父节点词也应 被保留: 其中, wp是wi的父节点词, yp和yi分别是其对应的标签; 对于某些依存关系, 如主谓关系, 如果父节点词, 即谓语被保留, 那么它的子节点词, 即 主语也应 被保留: 其中, R表示在优化的答案句中, 如果父节点词被保留, 则子节点词常被保留的一组依 存关系: R{ SBV,VOB,IOB,FOB,POB,ATT,DBL,CMP,WP}, 根据考试阅读理解答案句概括任务的权 利 要 求 书 2/3 页 3 CN 115329960 A 3

.PDF文档 专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法 第 1 页 专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法 第 2 页 专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:03:32上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。