专利一种利用数据增强和特征加权实现的MOOC辍学预测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111503367.1 (22)申请日 2021.12.10 (71)申请人西北大学地址 710069 陕西省西安市碑林区太白北路229号 (72)发明人袁新瑞　高彦太　 (74)专利代理机构西安西达专利代理有限责任公司 61202 代理人刘华 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06Q 10/04(2012.01) G06Q 50/20(2012.01) G06V 10/774(2022.01) (54)发明名称一种利用数据增强和特征加权实现的MOOC 辍学预测方法 (57)摘要一种利用数据增强和特征加权实现的MOOC 辍学预测方法，基于数据增强和特征加权的CNN_ GRU辍学预测模型以视频为单位，通过从在线教育平台中抽取学习者的学习行为数据作为模型输入，经过数据增强、信息提取、特征加权三个步骤计算发生辍学行为的概率。模型能更加准确地预测学习者发生辍学的概率且鲁棒性良好，在指标AUC和F1上模型均取得了最佳表现，分别为 86.82%和90.35%。同时通过对比实验的方式，验证了特征加权能够有效提升模型性能。权利要求书3页说明书8页附图1页 CN 114358135 A 2022.04.15 CN 114358135 A 1.一种利用数据增强和特征加权实现的MOOC辍学预测方法，其特征在于，包括以下步骤：步骤1、定义MO OCs的辍学预测：定义1.学习者和课程的属性信息， U和C分别表示学习者和课程集合，则(u， c)表示用户 u选修课程c；定义2.学习行为数据：在线学习平台会记录学习者c在课程u的视频学习过程中包括开始学习、快进、倍速、暂停、结束播放等行为数据，将学习行为数据分为第t节视频学习行为数据与前t ‑1节视频学习的行为数据，分别记为xt(u， c)， xh(u， c)，则与 (1≤i≤mx且i为整数， mx为学习行为数据的特征个数)表示学习者c 在课程u中的第i个与学习相关的值为连续值的行为特征；步骤2、辍学者初筛选：给定学习者u在课程c前t ‑1节视频学习行为xh(u， c)和第t节视频学习行为xt(u， c)以及学习者信息u和课程信息c，则辍学预测的目标是预测学习者是否会继续第t+1视频课程的学习，用y(u， c)∈{0， 1}表示第t节视频学习后是否发生辍学的基本事实，当且仅当y(u， c) 为“1”表示该学习者在第t 节视频学习后发生了辍学，可用函数表示为： f： (u， c， xh(u， c)， xt(u， c))→y(u， c) (1) 步骤3、构建模型：为了能够及时准确地发现潜在的辍学者，构建基于数据增强和特征加权的ACG模型来预测和分析辍学，模型由卷积神经网络、门控循环单元、自注意力机制等部分组成；卷积层用于筛选学习行为中的有效特征， GRU层用于提取学习行为中的时序信息，模型使用上下文信息对学习行为特征进行增强并嵌入为向量，随后，将使用卷积神经网络和门控循环单元提取到的特征信息和使用自注意力机制学习到的特征权重融合用于辍学预测，提高模型的预测能力；步骤4、数据增强：由于学习者的学习行为对学习者信息、课程信息、历史学习活动高度敏感，模型利用上下文信息对学习行为数据增强，即针对第t节视频的学习活动中的第i个学习活动特征，将学习者信息u、课程信息c、以及第i个特征的历史学习活动扩展到第t节视频学习活动中进行数据增强：公式(2)中1≤i≤mx，而学习者的第 i个特征的历史活动可以由映射函数G得到: 因此，随后，将每一个特征通过嵌入层将每个x转换为密集向量。作为连续变量，通过将乘以参数向量来获得相应的嵌入向量：权　利　要　求　书 1/3 页 2 CN 114358135 A 2公式(3)用表示的嵌入矩阵，到这里，可以看作是对学习过程行为数据的数据增强表示；步骤5、信息提取：模型使用卷积神经网络和门控循环单元进行学习行为中有效信息的提取， CNN自动提取输入数据的重要特征，并且在辍学预测问题中， CNN分类模型进行辍学预测，使用一维卷积神经网络对每一个Ei(1≤i≤mx)进行卷积操作： Si＝σ(Wconvδ(Ei)+bconv) (4) 公式(4)中 σ 为激活函数， δ是用于将Ei铺平为一维向量的函数，因此，分别表示Ei、 E卷积后的向量，然后，使用门控循环神经网络进行时序信息提取：公式(5)到公式(8)中分别表示更新门和重置门；更新门的作用是控制前一时刻的状态信息被带入当前状态中的程度；重置门是用于控制前一状态有多少信息被写入到当前的候选集上，其中，均是上述公式中的可导变量参数；步骤6、特征加权采用自注意力机制对CNN_GRU提取的信息进行特征加权，将经过上一步提取的有效信息ht作为输入，可以得到加权特征hAtten：公式(9)中是参数。而可以直接用于交给分类器进行分类；先使用函数δ将hAtten转换为一维向量，然后使用sigmoid()函数进行辍学发生的概率计算：公式(10)中ws是参数，表示模型预测学习者u在课程c中发生辍学行为权　利　要　求　书 2/3 页 3 CN 114358135 A 3

专利 一种利用数据增强和特征加权实现的MOOC辍学预测方法

专利一种利用数据增强和特征加权实现的MOOC辍学预测方法