时间:2024-05-04
周昱彤 张跃富 刘竞泽 孙玮潞 吕震宇*
(1.华北理工大学经济学院 河北省唐山市 063000 2.华北理工大学管理学院 河北省唐山市 063000)
(3.天津科技大学 天津市 300000)
高考志愿填报工作中高校录取分数的预测对于考生来说至关重要,直接决定其志愿填报的质量[1]。等效分法是一种常用的高校高考录取分数预测方法,该算法使用考生所在省份当年一分一档表将分数转换为排名位次,然后使用上一年度一分一档表将排名位次反向转换为分数,进而实现不同年度录取分数的可比性,帮助考生结合往年高校录取分数确定志愿的填报方案。这种填报方法需要考生进行大量的一分一档表查找转换工作。由于一分一档表属于离散型数据,数据量较大,使得查找过程十分繁琐不便。为此需要找到合适方法将大量的离散型数据进行压缩,以便于查找计算。
目前对离散型数据进行压缩使其连续化的方法有线性回归、指数回归、多项式回归等,这些方法需要事先给出回归方程,针对趋势明显的数据具有较好的回归效果。但利用格学教育所提供的2018年河北省高考理科一分一档表数据绘制出曲线图(如图1)发现,一分一档表曲线形状并不规则,没有明显的典型回归方程特征,无法使用现有回归手段进行连续化处理。而运用Spline 样条插值法所确定的样条曲线是经过或接近影响曲线形状的一系列点的平滑曲线,该方法无需数据具有明显的趋势特征。因此可以通过设计一套通用Spline 回归算法,实现对不规则一分一档表的Spline 曲线回归,进而使得一分一档表数据得到有效压缩。
本文设计的Spline 回归算法采用模拟退火算法,首先初始设置较多的Spline 关键点,动态调整位置使误差平方和最小。然后逐次从剩余的关键点中挑选并拿走一个关键点,并确保该关键点拿走后产生的误差平方和最小,直至达到指定关键点数量。
Spline 回归的设计思路:在一个有若干点的象限中拟合的Spline 曲线上,坐标轴均匀划分x 份,在曲线中找到对应的x 个点,逐个取走Spline 曲线中的点,改变该曲线的关键点knot 个数,会影响曲线的形状[2],回归曲线过未取走节点的同时,拟合取走的节点。重复以上过程,使得每个被取走的点对曲线整体误差平方和的影响最小,直到剩余节点等于设定节点数量,Spline 回归曲线过剩余节点拟合为一条光滑的曲线。
Spline 回归具体算法如图2所示。
以图1 为例,纵坐标为分段对应人数,横坐标为高考分数,函数没有明显的典型回归方程特征,使用本文设计的Spline 回归算法将一分一档表中分数散点拟合为一条连续的光滑曲线。
为了探讨Spline 回归曲线中初始点对结果的影响和不同数量关键点knot 对结果的影响,设计如下实验:
A、初始点对结果的影响对比分析以及实验;
图1:2018年河北省高考理科一分一档表
图2:Spline 回归具体算法
B、不同数量关键点knot 对结果的影响对比分析。
图3:关键点knot 为10, 初始点分别为100、40
图4:初始点100,关键点knot 分别为15、10、8、6
图3 显示,在关键点knot 为10 的情况下,初始点为100 的误差平方和为208913.75,初始点为40 的误差平方和为227130.07。对比可知,在初始点数量不同,关键点knot 数量相同的情况下,初始点越密,误差平方和越小,spline 回归拟合效果越好。
图4 显示,在初始点为100 的情况下,关键点为15 的误差平方和为181309.37,关键点为10 的误差平方和为208913.75,关键点为8 的误差平方和为357710.45,关键点为6 的误差平方和为602025.29。对比可知,在初始点数量相同,关键点knot 数量不同的情况下,关键点knot 数量越多,误差平方和越小,回归效果越好,但数据压缩效果越差。此外,即便在终结点数量非常少的情况下,本算法仍然能够得到较为满意的回归效果。
针对一分一档表为离散数据且数据量大,不方便查找的问题,本文设计了基于模拟退火算法的Spline 回归算法,将不规则离散型数据连续化,在压缩数据量的同时方便了分数、排名间的映射。实验表明,该算法具有良好的拟合效果,在大幅压缩原始数据量的情况下仍然能够得到较好的拟合结果。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!