说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111503367.1 (22)申请日 2021.12.10 (71)申请人 西北大学 地址 710069 陕西省西安市碑林区太白北 路229号 (72)发明人 袁新瑞 高彦太  (74)专利代理 机构 西安西达专利代理有限责任 公司 61202 代理人 刘华 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06Q 10/04(2012.01) G06Q 50/20(2012.01) G06V 10/774(2022.01) (54)发明名称 一种利用数据增强和特征加权实现的MOOC 辍学预测方法 (57)摘要 一种利用数据增强和特征加权实现的MOOC 辍学预测方法, 基于数据增强和特征加权的CNN_ GRU辍学预测模型以视频为单位, 通过从在线教 育平台中抽取学习者的学习行为数据作为模型 输入, 经过数据增强、 信息提取、 特征加权三个步 骤计算发生辍 学行为的概率。 模 型能更加准确地 预测学习者发生辍学的概率且鲁棒性良好, 在指 标AUC和F1上模型均取得了最佳表现, 分别为 86.82%和90.35%。 同时通过对比实验的方式, 验 证了特征加权能够有效提升模型性能。 权利要求书3页 说明书8页 附图1页 CN 114358135 A 2022.04.15 CN 114358135 A 1.一种利用数据增强和特征加权实现的MOOC辍学预测方法, 其特征在于, 包括以下步 骤: 步骤1、 定义MO OCs的辍学 预测: 定义1.学习者和课程的属性信息, U和C分别表示学习者和课程集合, 则(u, c)表示用户 u选修课程c; 定义2.学习行为数据: 在线学习平台会记录学习者c在课程u的视频学习过程中包括开 始学习、 快进、 倍速、 暂停、 结束播放等行为数据, 将学习行为数据分为第t节视频学习行为 数据与前t ‑1节视频学习的行为数据, 分别记为xt(u, c), xh(u, c), 则 与 (1≤i≤mx且i为整数, mx为学习行为数据的特征个数)表示学习者c 在课程u中的第i个与学习相关的值 为连续值的行为特 征; 步骤2、 辍学者初筛 选: 给定学习者u在 课程c前t ‑1节视频学习行为xh(u, c)和第t节视频学习行为xt(u, c)以及 学习者信息u和 课程信息c, 则辍学预测的目标是预测学习者是否会继续第t+1视频课程的 学习, 用y(u, c)∈{0, 1}表示第t节视频学习后 是否发生辍学的基本事实, 当且仅当y(u, c) 为“1”表示该学习者在第t 节视频学习后发生了辍学, 可用函数表示 为: f: (u, c, xh(u, c), xt(u, c))→y(u, c)           (1) 步骤3、 构建模型: 为了能够及时准确地发现潜在的辍学者, 构建基于数据增强和特征加权的ACG模型来 预测和分析辍学, 模型由卷积神经网络、 门控循环单元、 自注意力机制等部分组成; 卷积层 用于筛选学习行为中的有效特征, GRU层用于提取学习行为中的时序信息, 模型使用上下文 信息对学习 行为特征进行增强并嵌入为向量, 随后, 将使用卷积神经网络和门控循环单元 提取到的特征信息和使用自注意力机制学习到的特征权重融合用于辍学预测, 提高模型的 预测能力; 步骤4、 数据增强: 由于学习者的学习行为对学习者信 息、 课程信 息、 历史学习活动高度 敏感, 模型利用上 下文信息对学习行为数据增强, 即针对第t节视频的学习活动中的第i个学习活动特征, 将 学习者信息u、 课程信息c、 以及第i个特征的历史学习活动 扩展到第t节视频学习 活动中进行 数据增强: 公式(2)中1≤i≤mx, 而学习者的第 i个特征的历史活动可以由映射函数G得 到: 因此, 随后, 将每一个特征 通过嵌入层将每个x转换为密集向量。 作为连续变量, 通过将 乘以参数向量 来获得相应的嵌入向量:权 利 要 求 书 1/3 页 2 CN 114358135 A 2公式(3)用 表示 的嵌入矩阵, 到 这里, 可以看作是对学 习过程行为数据的数据增强表示; 步骤5、 信息提取: 模型使用卷积神经网络和门控循环单元进行学习行为中有效信息的提取, CNN自动提 取输入数据的重要特征, 并且在辍学预测问题中, CNN分类模型进行辍学预测, 使用一维卷 积神经网络对每一个Ei(1≤i≤mx)进行卷积操作: Si=σ(Wconvδ(Ei)+bconv)            (4) 公式(4)中 σ 为激活函数, δ是用于将Ei铺平 为一维向量的函数, 因此, 分别表示Ei、 E卷积后的向量, 然 后, 使用门控循环神经网络进行时序信息提取: 公式(5)到公式(8)中 分别表示更新门和重置门; 更新门的作用是控制前 一时刻 的状态信息被带入当前状态中的程度; 重置门是用于控制前一状态 有多少信息被写入到当前的候选集上, 其中, 均是上述公式 中的可导变量 参数; 步骤6、 特 征加权 采用自注意力机制对CNN_GRU提取的信息进行特征加权, 将经过上一步提取的有效信 息ht作为输入, 可以得到加权特 征hAtten: 公式(9)中 是参数。 而 可以直接用于交给 分类器进行分类; 先使用函 数δ将hAtten转换为一维向量, 然后使用sigmoid()函数进行辍学发生的概率计 算: 公式(10)中ws是参数, 表示模型预测学习者u在课程c中发生辍学行为权 利 要 求 书 2/3 页 3 CN 114358135 A 3

.PDF文档 专利 一种利用数据增强和特征加权实现的MOOC辍学预测方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种利用数据增强和特征加权实现的MOOC辍学预测方法 第 1 页 专利 一种利用数据增强和特征加权实现的MOOC辍学预测方法 第 2 页 专利 一种利用数据增强和特征加权实现的MOOC辍学预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:41:02上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。