(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210962724.9
(22)申请日 2022.08.11
(71)申请人 山西大学
地址 030006 山西省太原市坞城路9 2号
(72)发明人 杨陟卓 蔡志宇 张虎 李茹
(74)专利代理 机构 太原申立德知识产权代理事
务所(特殊普通 合伙) 14115
专利代理师 郭海燕
(51)Int.Cl.
G06N 5/02(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种融合CPT和最优化模 型的考试阅读理解
答案句概 括方法
(57)摘要
本发明属于自然语 言处理技术领域, 公开了
一种融合CPT和最优化模型的考试阅读理解答案
句概括方法。 本发明基于CPT模型对背景材料答
案句进行概括总结, 并综合使用语义权威度、 问
题匹配度、 依存句法、 句子长度等多种因素优化
CPT模型输出的文本, 生成信息准确、 与问题匹配
度高、 句法结构完整且对答案要点进行归纳概括
的答案句, 提升了问答型阅读理解系统的概括总
结能力。 本申请的成果可应用到教育考试辅导平
台中, 为科技教育提供有效的技 术解决方案 。
权利要求书3页 说明书11页 附图4页
CN 115329960 A
2022.11.11
CN 115329960 A
1.一种融合CPT和最优化模型的考试阅读理解答案句概括方法, 其特征在于: 包括以下
步骤:
步骤S1, 构建概 括总结语料库;
步骤S2, 使用概 括总结语料库对CPT模型进行训练和微调;
步骤S3, 将背景 材料答案句输入步骤2训练和微调后的CPT模型进行概 括总结;
步骤S4, 综合语义权威度、 问题匹配度和句法结构重要度计算背景材料答案句中词语
的可信度;
步骤S5, 利用最优化模型优化CPT模型输出的文本, 重新生成新的答案句, 完成考试阅
读理解答案句的概 括。
2.根据权利要求1所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法,
其特征在于: 所述步骤1中构建概括总结语料库具体为: 采用语料(1)各省历年的考试问答
真题和模拟题; (2)组卷网爬取的考试阅读理解问答题; (3)NLPCC2017会议的中文单文档摘
要测评任务数据集; 首先, 将原文中的句子按照标点符号分成单句, 然后根据如下公式计算
概括句与原文中每一个句子的相似度, 选择原文中相似度最高的句子作为概括句的对应
句, 构建概 括总结语料库;
其中,
表示摘要中第i个概括句Si的词集合,
表示原文中第j个句子Pj的词集合, wk
表示句子中的词语。
3.根据权利要求2所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法,
其特征在于: 所述步骤S2中使用概括总结语料库对CPT模型进 行训练和微调具体为: 在概括
总结语料库源句子和目标句的首部和尾部分别添加特殊标记 “CLS”和“SEP”, 源句子序列输
入CPT模型的共享编码器, 目标句序列输入生成解码器, 对CPT模型进行训练和微调, 使得
CPT模型具备去除冗余信息和归纳总结的能力。
4.根据权利要求3所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法,
其特征在于: 所述步骤S3中将背景材料答案句输入步骤S2训练和微调后的CPT模型进行概
括总结具体为: 将背景材料答案句S={w1,w2,...,wm}输入到训练好的CPT模型中, m表示背
景材料答案句中词语的个数, wi表示句中第i个词语, 生成较为精炼且具有权威信息的答案
句, 即概括的答案句T={t1,t2,...,tn}。
5.根据权利要求4所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法,
其特征在于: 所述步骤S4中综合语义权威度、 问题匹配度和句法结构重要度计算背景材料
答案句中词语的可信度具体包括以下步骤:
步骤S4.1, 根据步骤3CPT模型生成的文本计算词语的语义权威度αi, CPT模型生成的概
括答案句文本表达了原句, 即背景材料答案句的主要含义, 如果原句S={w1,w2,...,wm}中
的词语wi在CPT模型生成的文本T ={t1,t2,...,tn}中, 将词语wi的语义权威度αi设为1, 否则
设置为0;
步骤S4.2, 结合Word2Vec和HowNet计算词语与问句的匹配度simi, 词语与问句的匹配度
有利于召回原句中与问句更相关的词语, 计算公式如下 所示:权 利 要 求 书 1/3 页
2
CN 115329960 A
2其中Q*表示问句Q去停用 词后的词语列表, qj表示列表中的词语,
表示利用
Word2Vec计算wi和qj的词向量余弦相似度,
和
分别表示wi和qj的词向量, simHowNet
(wi,qj)表示通过HowNet计算wi和qj的相似度, β1和β2为需要设置的正 参数, β1+β2=1;
步骤S4.3, 根据词语在依存句法分析树中的深度计算词语的句法结构重要度stri; 越接
近树根节点的词语成为句 子主要成分的概率越大, 远离根节点、 深度越大 的词语越有可能
对原句的意 义没有影响, 计算公式如下 所示:
stri=‑depi (4)
其中, depi表示词语wi在依存句法分析树中的深度, 规定树根节点的深度为0, 根节点的
直接子节点深度为1, 依此类 推;
步骤S4.4, 结合语义权威度αi、 问句匹配度simi和句法结构重要度stri三种因素计算词
语的可信度Ii:
Ii= λ1×αi+λ2×simi+λ3×stri (5)
其中λ1、 λ2和 λ3为需要设置的正 参数。
6.根据权利要求5所述的一种融合CPT和最优化模型的考试阅读理解答案句概括方法,
其特征在于: 所述步骤S 5中利用最优化模 型优化CPT模型输出的文本, 重新生成新的答案句
包括以下步骤:
步骤S5.1, 通过词语可信度构造最优化模型目标函数, 用于权威信息和冗余词语的选
择, 保证生成答案句信息的正确性:
其中, m表示背景材料答案句中词语的个数, yi表示句中第i个词语wi是否应被删除或保
留的标签, 如果yi=1, 词语wi被保留, 如果yi=0, 词语wi被删除, Ii表示词语wi的可信度;
步骤S5.2, 引入句法结构完整性、 语义正确性以及连贯性约束保证生成答案句的通畅
性, 同时引入句子 长度约束控制生成答案句的长度;
(1)句法结构完整性约束
在优化的答案句中, 如果子节点词被保留, 那么它的父节点词也应 被保留:
其中, wp是wi的父节点词, yp和yi分别是其对应的标签;
对于某些依存关系, 如主谓关系, 如果父节点词, 即谓语被保留, 那么它的子节点词, 即
主语也应 被保留:
其中, R表示在优化的答案句中, 如果父节点词被保留, 则子节点词常被保留的一组依
存关系: R{ SBV,VOB,IOB,FOB,POB,ATT,DBL,CMP,WP}, 根据考试阅读理解答案句概括任务的权 利 要 求 书 2/3 页
3
CN 115329960 A
3
专利 一种融合CPT和最优化模型的考试阅读理解答案句概括方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:03:32上传分享