专利一种高考院校录取分数预测与志愿推荐的算法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210928914.9 (22)申请日 2022.08.03 (71)申请人电子科技大学地址 610000 四川省成都市高新区（西区）西源大道 2006号 (72)发明人武畅　周奕　俞浩然　黄肖曼　刘思言　 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/20(2012.01) G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称一种高考院校录取分数预测与志愿推荐的算法 (57)摘要本发明公开了一种高考院校录取分数预测与志愿推荐的算法，包括以下步骤： S1：收集各高校录取信息以及不同省份的高考分数与位次信息。 S2：将收集到的各所高校信息进行筛选，剔除无用数据。 S3：对整理后的高校信息进行归一化处理，减小差异样本对数据产生的影响。 S4：利用 XGBoost对高校当年在该省的成绩进行回归预测，预测出该高校的录取分数。 S5：根据考生提供的分数、意向省份等信息，推荐出适合的高校，并提出稳定、可冲、危险三个推荐范围内的高校。本发明通过分析历史上高校的高考录取成绩，预测当年高校的录取分数，并提供考生填报高考志愿的参考信息。权利要求书3页说明书8页附图3页 CN 115099529 A 2022.09.23 CN 115099529 A 1.一种高考院校录取分数预测与志愿推荐的算法，其特征在于，包括以下步骤： S1：收集各高校录取信息以及不同省份的高考分数与位次信息； S2：将收集到的各所高校信息进行筛选，剔除无用数据，填补空值； S3：对整理后的高校信息进行归一化处理，减小差异样本对数据产生的影响； S4：利用XGBo ost对高校当年在该省的成绩进行回归预测，预测出该校的录取分数； S5：根据考生给出的分数、意向省份信息，推荐适合的高校，并提出：稳定、可冲、危险三个推荐范围的高校。 2.根据权利要求1所述的针对高校录取成绩的预测算法，其特征在于，所述步骤S1包括以下子步骤： S11：从网络上收集各所高校近五年在不同省份的招生人数，在不同省份的录取分数线与相应位次，和各所高校是否为双一流大学，各所高校当年的招生计划，以及高校所在省份，高校所在城市，各省的高考成绩与位次对应表(一分一段表)； S12：将收集的各高校录取信息以及不同省份的高考分数与位次信息按照省份进行分类，加入数据库。 3.根据权利要求1所述的针对高考成绩的预测算法，其特征在于，所述步骤S2包括以下子步骤： S21：整理收集到的数据，剔除空值过多的数据； S22：对于空值较少的近五年高校在各省的录取分数数据，缺乏的空值用近两年的平均位次与当年该位次的分值来代替； S23：将高校名称，是否为双一流大学的信息转化为各不相同且独立的数字信息，高校的数字信息从1开始与高校一一对应，确保每一个高校对应一个数字，对于是否为双一流大学的数字信息，是双一流大学的数字信息为1，不是为0 。 4.根据权利要求3所述的针对高考成绩的预测算法，其特征在于，所述步骤S22中，其计算公式为：其中n1、 n2表示该空值位置最近两年位置的位次信息，利用近两年一分一段表中分数的平均值与当年的一分一段表进行映射，所得分数替代空值填入表中。 5.根据权利要求1所述的针对高考成绩的预测算法，其特征在于，所述步骤S3中，其中对数据进行归一化处理的计算公式为： Xscaled＝Xstd*(max‑min)+min Xmin为每列中的最小值组成的行向量， Xmax为每列中的最大值组成的行向量， max为要映射到的区间最大值，默认是1， min为要映射到的区间最小值，默认是0， Xstd为标准化结果， Xscaled为归一化结果。 6.根据权利要求1所述的针对高考成绩的预测算法，其特征在于，所述步骤S4包括以下子步骤：权　利　要　求　书 1/3 页 2 CN 115099529 A 2S41：对经过S3归一化处理的数据进行滑动窗口分配， X是输入信息， Y是输出信息，以高校、该校当年招生计划、是否为双一流大学作为输入端X不变的部分，将每年的成绩，位次，招生人数以滑动窗口的形式作为X输入， Y为预测年份的高校录取分数，输出Y；滑动窗口处理的具体方法为： (1)、定义一个滑动窗口，窗口长度为L，其中M≥L， M为数据长度，数据的维度为(M， F)，其中F为所选特征个数； (2)、按照维度(0～L， F)取出前L个数据放入窗口中，同时将第L+1个数据作为标签； (3)、以1为步长滑动动窗口，即按照维度(1～L+1， F)取出L个数据，同时将第L+2个数据作为标签； (4)、分别对每年的成绩、位次、招生人数数据重复上述步骤，直到每个数据集得到M‑L+ 1个窗口和M ‑L+1个标签； S42：将经过滑动窗口处理得到的数组划分为训练集和验证集，因为样本集规模小于 1000000个样本为小样本集，依据对小样本集的训练集与验证集划分原则进行划分； S43：利用网格搜索法对XGBo ost的参数进行调整；网格搜索算法是一种通过遍历给定的参数组合来优化模型表现的方法，手动选择 XGBoost的参数的范围，在所有候选的参数选择中，通过循环遍历，尝试每一种可能，由算法评估不同参数下的模型性能，以获得参数范围内最优的参数值； XGBoost是一个优化的分布式梯度增强库，它在Gradient Boosting框架下实现机器学习算法， XGBoost提供并行树提升(也称为GBDT， GBM)，可以快速准确地解决许多数据科学问题，将S43得到的训练集与验证集样本输入XGBo ost进行训练得到预测模型； S44：以高校、该校当年招生计划、是否为双一流大学、以及目标年份前两年的成绩，位次，招生人数作为输入，通过模型预测目标年份该大学的录取分数，输出该高校当年的预测录取分数； S45：将该高校当年的预测录取分数存入数据库。 7.根据权利要求1所述的针对高校录取成绩的预测算法，其特征在于，所述步骤S5包括以下子步骤： S51：根据S4获得各高校当年的预测录取分数，以及高校所在城市、省份等信息，利用交叉验证方法，选择出KNNBASIC算法中最适合的K值；交叉验证是把在某种意义下将原始数据进行分组,一部分做为训练集,另一部分做为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此来做为评价分类器的性能指标； KNNBASIC的思想很简单，就是解决评价未知物品U的问题，只需找k个与U相似的已知的东西，并通过k个已知的东西对U再进行评估，利用KNNBASIC计算高校之间的相似度，然后找到k个与考生输入信息相似度最接近的高校进行推荐；交叉验证的流程如下： (1)将数据集分成K(折)段，并将每段拆分成训练集和验证集； (2)遍历所有指定的K值对每段进行 KNN模型训练； (3)将每段评估的准确率进行相加，并除以K(折)，得出KNN模型为某K值时的最终准确率；权　利　要　求　书 2/3 页 3 CN 115099529 A 3

专利 一种高考院校录取分数预测与志愿推荐的算法

专利一种高考院校录取分数预测与志愿推荐的算法