说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210928914.9 (22)申请日 2022.08.03 (71)申请人 电子科技大 学 地址 610000 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 武畅 周奕 俞浩然 黄肖曼  刘思言  (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/20(2012.01) G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 一种高考院校录取分数预测与志愿推荐的 算法 (57)摘要 本发明公开了一种高考院校录取分数预测 与志愿推荐的算法, 包括以下步骤: S1: 收集各高 校录取信息以及不同省份的高考分数与位次信 息。 S2: 将收集到的各所高校信息进行筛选, 剔除 无用数据。 S3: 对整理后的高校信息进行归一化 处理, 减小差异样本对数据产生的影 响。 S4: 利用 XGBoost对高校当年在该省的成绩进行回归预 测, 预测出该高校的录 取分数。 S5: 根据考生提供 的分数、 意向省份等信息, 推荐出适合的高校, 并 提出稳定、 可冲、 危险三个推荐范围内的高校。 本 发明通过分析历史上高校的高考录取成绩, 预测 当年高校的录取分数, 并提供考生填报高考志愿 的参考信息。 权利要求书3页 说明书8页 附图3页 CN 115099529 A 2022.09.23 CN 115099529 A 1.一种高考院校录取分数 预测与志愿推荐的算法, 其特 征在于, 包括以下步骤: S1: 收集各高校录取信息以及不同省份的高考分数与位次信息; S2: 将收集到的各 所高校信息进行筛 选, 剔除无用数据, 填补空值; S3: 对整理后的高校信息进行归一 化处理, 减小差异样本对数据 产生的影响; S4: 利用XGBo ost对高校当年在该省的成绩进行回归预测, 预测出 该校的录取分数; S5: 根据考生给出的分数、 意向省份信息, 推荐适合的高校, 并提出: 稳定、 可冲、 危险三 个推荐范围的高校。 2.根据权利要求1所述的针对高校录取成绩的预测算法, 其特征在于, 所述步骤S1包括 以下子步骤: S11: 从网络上收集各所高校近五年在不同省份的招生人数, 在不同省份的录取分数线 与相应位次, 和各所高校是否为双一流大学, 各所高校当年的招生计划, 以及高校所在省 份, 高校所在城市, 各省的高考成绩与位次对应表(一分一段表); S12: 将收集的各高校录取信息以及不同省份的高考分数与位次信息按照省份进行分 类, 加入数据库。 3.根据权利要求1所述的针对高考成绩的预测算法, 其特征在于, 所述步骤S2包括以下 子步骤: S21: 整理收集到的数据, 剔除空值过多的数据; S22: 对于空值较少的近五年高校在各省的录取分数数据, 缺乏的空值用近两年的平均 位次与当年该位次的分值 来代替; S23: 将高校名称, 是否为双一流大学的信息转化为各不相同且独立的数字信息, 高校 的数字信息从1开始与高校一一对应, 确保每一个高校对应一个数字, 对于是否为双一流大 学的数字信息, 是双一 流大学的数字信息为1, 不是为0 。 4.根据权利要求3所述的针对高考成绩的预测算法, 其特征在于, 所述步骤S22中, 其计 算公式为: 其中n1、 n2表示该空值位置最近两年位置的位次信息, 利用近两年一分一段表中分数 的平均值与当年的一分一段表进行映射, 所 得分数替代空值 填入表中。 5.根据权利要求1所述的针对高考成绩的预测算法, 其特征在于, 所述步骤S3中, 其中 对数据进行归一 化处理的计算公式为: Xscaled=Xstd*(max‑min)+min Xmin为每列中的最小值组成的行向量, Xmax为每列中的最大值组成的行向量, max为要映 射到的区间最大值, 默认是1, min为要映射到的区间最小值, 默认是0, Xstd为标准化结果, Xscaled为归一化结果。 6.根据权利要求1所述的针对高考成绩的预测算法, 其特征在于, 所述步骤S4包括以下 子步骤:权 利 要 求 书 1/3 页 2 CN 115099529 A 2S41: 对经过S3归一化处理的数据进行滑动窗口分配, X是输入信息, Y是输出信息, 以高 校、 该校当年招生计划、 是否为双一流大学作为输入端X不变的部分, 将每年的成绩, 位次, 招生人数以滑动窗口 的形式作为X输入, Y为预测年份的高校录取分数, 输出Y; 滑动窗口处 理的具体方法为: (1)、 定义一个滑动窗口, 窗口长度为L, 其中M≥L, M为数据长度, 数据的维度为(M, F), 其中F为所选特 征个数; (2)、 按照维度(0~L, F)取 出前L个数据放入窗口中, 同时将第L+1个数据作为标签; (3)、 以1为步长滑动动窗口, 即按照维度(1~L+1, F)取出L个数据, 同时将第L+2个数据 作为标签; (4)、 分别 对每年的成绩、 位次、 招生人数数据重 复上述步骤, 直到每个数据 集得到M‑L+ 1个窗口和M ‑L+1个标签; S42: 将经过滑动窗口处理得到的数组划分为训练集和验证集, 因为样本集规模小于 1000000个样本为小样本集, 依据对小样本集的训练集与验证集划分原则进行划分; S43: 利用网格搜索法对XGBo ost的参数进行调整; 网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法, 手动选择 XGBoost的参数的范围, 在所有候选的参数选择中, 通过循环遍历, 尝试每一种可能, 由算法 评估不同参数 下的模型性能, 以获得参数 范围内最优的参数值; XGBoost是一个优化的分布式梯度增强库, 它在Gradient  Boosting框架下实现机器学 习算法, XGBoost提供并行树提升(也称为GBDT, GBM), 可以快速准确地解决许多数据科学问 题, 将S43得到的训练集与验证集样本 输入XGBo ost进行训练得到预测模型; S44: 以高校、 该校当年招生计划、 是否为双一流大学、 以及目标年份前两年的成绩, 位 次, 招生人数作为输入, 通过模型预测目标年份该大学的录取分数, 输出该高校当年的预测 录取分数; S45: 将该高校当年的预测录取分数存 入数据库。 7.根据权利要求1所述的针对高校录取成绩的预测算法, 其特征在于, 所述步骤S5包括 以下子步骤: S51: 根据S4获得各高校当年的预测录取分数, 以及高校所在城市、 省份等信息, 利用交 叉验证方法, 选择 出KNNBASIC算法中最 适合的K值; 交叉验证是把在某种意义下将原始数据进行分组,一部分做为训练集,另一部分做为 验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做 为评价分类 器的性能指标; KNNBASIC的思想很简单, 就是解决评价未知物品U的问题, 只需找k个与U相似的已知的 东西, 并通过k个已知的东西对U再进行评估, 利用KNNBASIC计算高校之间的相似度, 然后找 到k个与考 生输入信息相似度最接 近的高校进行推荐; 交叉验证的流 程如下: (1)将数据集分成K(折)段, 并将每段拆分成训练集和验证集; (2)遍历所有指定的K值对每段进行 KNN模型训练; (3)将每段评估的准确率进行相加, 并除以K(折), 得出KNN模型为某K值时的最终准确 率;权 利 要 求 书 2/3 页 3 CN 115099529 A 3

.PDF文档 专利 一种高考院校录取分数预测与志愿推荐的算法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种高考院校录取分数预测与志愿推荐的算法 第 1 页 专利 一种高考院校录取分数预测与志愿推荐的算法 第 2 页 专利 一种高考院校录取分数预测与志愿推荐的算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。