专利一种融合CPT和最优化模型的考试阅读理解答案句概括方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210962724.9 (22)申请日 2022.08.11 (71)申请人山西大学地址 030006 山西省太原市坞城路9 2号 (72)发明人杨陟卓　蔡志宇　张虎　李茹　 (74)专利代理机构太原申立德知识产权代理事务所(特殊普通合伙) 14115 专利代理师郭海燕 (51)Int.Cl. G06N 5/02(2006.01) G06N 20/00(2019.01) (54)发明名称一种融合CPT和最优化模型的考试阅读理解答案句概括方法 (57)摘要本发明属于自然语言处理技术领域，公开了一种融合CPT和最优化模型的考试阅读理解答案句概括方法。本发明基于CPT模型对背景材料答案句进行概括总结，并综合使用语义权威度、问题匹配度、依存句法、句子长度等多种因素优化 CPT模型输出的文本，生成信息准确、与问题匹配度高、句法结构完整且对答案要点进行归纳概括的答案句，提升了问答型阅读理解系统的概括总结能力。本申请的成果可应用到教育考试辅导平台中，为科技教育提供有效的技术解决方案。权利要求书3页说明书11页附图4页 CN 115329960 A 2022.11.11 CN 115329960 A 1.一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：包括以下步骤：步骤S1，构建概括总结语料库；步骤S2，使用概括总结语料库对CPT模型进行训练和微调；步骤S3，将背景材料答案句输入步骤2训练和微调后的CPT模型进行概括总结；步骤S4，综合语义权威度、问题匹配度和句法结构重要度计算背景材料答案句中词语的可信度；步骤S5，利用最优化模型优化CPT模型输出的文本，重新生成新的答案句，完成考试阅读理解答案句的概括。 2.根据权利要求1所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：所述步骤1中构建概括总结语料库具体为：采用语料(1)各省历年的考试问答真题和模拟题； (2)组卷网爬取的考试阅读理解问答题； (3)NLPCC2017会议的中文单文档摘要测评任务数据集；首先，将原文中的句子按照标点符号分成单句，然后根据如下公式计算概括句与原文中每一个句子的相似度，选择原文中相似度最高的句子作为概括句的对应句，构建概括总结语料库；其中，表示摘要中第i个概括句Si的词集合，表示原文中第j个句子Pj的词集合， wk 表示句子中的词语。 3.根据权利要求2所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：所述步骤S2中使用概括总结语料库对CPT模型进行训练和微调具体为：在概括总结语料库源句子和目标句的首部和尾部分别添加特殊标记 “CLS”和“SEP”，源句子序列输入CPT模型的共享编码器，目标句序列输入生成解码器，对CPT模型进行训练和微调，使得 CPT模型具备去除冗余信息和归纳总结的能力。 4.根据权利要求3所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：所述步骤S3中将背景材料答案句输入步骤S2训练和微调后的CPT模型进行概括总结具体为：将背景材料答案句S＝{w1,w2,...,wm}输入到训练好的CPT模型中， m表示背景材料答案句中词语的个数， wi表示句中第i个词语，生成较为精炼且具有权威信息的答案句，即概括的答案句T＝{t1,t2,...,tn}。 5.根据权利要求4所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：所述步骤S4中综合语义权威度、问题匹配度和句法结构重要度计算背景材料答案句中词语的可信度具体包括以下步骤：步骤S4.1，根据步骤3CPT模型生成的文本计算词语的语义权威度αi， CPT模型生成的概括答案句文本表达了原句，即背景材料答案句的主要含义，如果原句S＝{w1,w2,...,wm}中的词语wi在CPT模型生成的文本T ＝{t1,t2,...,tn}中，将词语wi的语义权威度αi设为1，否则设置为0；步骤S4.2，结合Word2Vec和HowNet计算词语与问句的匹配度simi，词语与问句的匹配度有利于召回原句中与问句更相关的词语，计算公式如下所示：权　利　要　求　书 1/3 页 2 CN 115329960 A 2其中Q*表示问句Q去停用词后的词语列表， qj表示列表中的词语，表示利用 Word2Vec计算wi和qj的词向量余弦相似度，和分别表示wi和qj的词向量， simHowNet (wi,qj)表示通过HowNet计算wi和qj的相似度， β1和β2为需要设置的正参数， β1+β2＝1；步骤S4.3，根据词语在依存句法分析树中的深度计算词语的句法结构重要度stri；越接近树根节点的词语成为句子主要成分的概率越大，远离根节点、深度越大的词语越有可能对原句的意义没有影响，计算公式如下所示： stri＝‑depi (4) 其中， depi表示词语wi在依存句法分析树中的深度，规定树根节点的深度为0，根节点的直接子节点深度为1，依此类推；步骤S4.4，结合语义权威度αi、问句匹配度simi和句法结构重要度stri三种因素计算词语的可信度Ii： Ii＝ λ1×αi+λ2×simi+λ3×stri (5) 其中λ1、 λ2和 λ3为需要设置的正参数。 6.根据权利要求5所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法，其特征在于：所述步骤S 5中利用最优化模型优化CPT模型输出的文本，重新生成新的答案句包括以下步骤：步骤S5.1，通过词语可信度构造最优化模型目标函数，用于权威信息和冗余词语的选择，保证生成答案句信息的正确性：其中， m表示背景材料答案句中词语的个数， yi表示句中第i个词语wi是否应被删除或保留的标签，如果yi＝1，词语wi被保留，如果yi＝0，词语wi被删除， Ii表示词语wi的可信度；步骤S5.2，引入句法结构完整性、语义正确性以及连贯性约束保证生成答案句的通畅性，同时引入句子长度约束控制生成答案句的长度； (1)句法结构完整性约束在优化的答案句中，如果子节点词被保留，那么它的父节点词也应被保留：其中， wp是wi的父节点词， yp和yi分别是其对应的标签；对于某些依存关系，如主谓关系，如果父节点词，即谓语被保留，那么它的子节点词，即主语也应被保留：其中， R表示在优化的答案句中，如果父节点词被保留，则子节点词常被保留的一组依存关系： R{ SBV,VOB,IOB,FOB,POB,ATT,DBL,CMP,WP}，根据考试阅读理解答案句概括任务的权　利　要　求　书 2/3 页 3 CN 115329960 A 3

专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法

专利一种融合CPT和最优化模型的考试阅读理解答案句概括方法