当前位置:首页 期刊杂志

L1正则化方法及其在经济增长中的应用

时间:2024-06-19

管勇攀

(河北工业大学经济管理学院,天津300401)

一、引言

随着现代经济发展与科技进步,我们正逐渐走进新的科学纪元——人工智能时代。人工智能时代是一个全新的时代,是一个科技爆炸的时代。机器学习作为人工智能中一个重要的科学领域,其重要性不言而喻。机器学习是一个由各学科交叉形成的大学科,涉及优化问题、概率问题、统计学应用等多个方面,其中,L1正则化是机器学习中对于成本函数取最优的过程。

L1正则化作为机器学习中常用手段之一,其本质是通过对拟合函数的损失函数添加一个L1正则化项,而避免拟合函数出现过拟合的情况。所谓过拟合,就是在机器学习的过程中,目标函数过于依赖样本值,而使得样本中的每一个数据都拟合进了函数中,当然这也包括了一些噪声,从而导致拟合出来的函数只适用于这个样本集,只在这个样本集的判断或者预测效果上表现得十分优异,如果切换到其他样本集,则得到的目标函数无法正确预测所需要的结果。L1正则化的优点是,可以把拟合函数某些与结果不相关的自变量系数压缩为0,这样得到的模型就具有很好的可解释性,也可通过模型更好地来分析、预测问题。L2正则化项是与L1正则化项相当的正则化项,其本质是在求取损失函数的同时,将L2正则化项纳入函数体系内,但是L2正则化项并不能把拟合函数的某些系数压缩为0,它只能使某些系数无限接近于0,但不会等于0,因而在模型的解释方面,L1正则化相对于L2正则化而言,具有一定的优越性。

二、文献综述

机器学习的正则化问题,归根到底就是一个优化问题,即:

其中,(f·)表示目标函数,S表示独立同分布样本集,S={(X1,y1),(X2,y2),…,(Xn,yn)}∊Rn×Ψ(回归问题时 Ψ=R,二分类问题时 Ψ={1,-1}),Xi、yi表示二位向量对应的元素值。W=[W1,W2,…,Wn]T是模型的参数,|·|||σp表示LP范数的 σ 次方,W∊Rn。(lW;X,y)称为损失函数,它控制模型的训练精度。称为正则化项,用以避免模型的过拟合。通过对λ进行调整,可以使模型具有训练精度和泛化能力的双重特征。当p=1时,就是L1正则化问题。优化问题必然要涉及到优化,从优化的角度来看这个等式,通过L1正则优化可得到一个凸优化问题,这样就使得优化问题的求解变得容易(罗涓涓,2004;李若男,2018)[1,2]。此外,问题的解有时会带有一定的稀疏性,这样我们所拟合的函数将会变得难以解释,通过对L1正则化进行适当改进,就可以在一定程度上解决特征稀疏问题(朱红,2012;张立柱、宁伟等,2001;段玉红、高玉林,2008)[3-5]。

L1正则化问题的研究已经初具成效,目前来看,国内外有许多针对L1优化问题的求解与改进方法,这些方法各有优劣之处,下面简单介绍四种L1正则化问题的求解方法。

(一)基于次梯度的多步骤方法

公式(1)的多步骤解法大多是次梯度算法及其改进版本,可以通过下式来定义f(W)在连续不可导点W0处的次梯度:

解决无约束凸二次优化问题的一般方法是随机梯度法(SGD),其表达式为 Wk+1=Wk-αkg(Xi,Wk)(Zhong Tong,2004)[6]。随机梯度法作为多步骤算法的一种,优点是单步计算开销小(王晓东,2014)[7],缺点是收敛速度慢。就目前研究来看,随机梯度算法仍没有很好的停止准则(苗硕,2015)[8]。通过对正则化问题的优化形式进行适当变形,可得到公式(1)如下的等价形式:

部分学者给出了L1投影算子的求解方法,对式(3)采用投影方法加以解决,其具体形式为Wk+1=PL1(Wk-αkg(Xi,Wk)),其中PL1(·)表示L1投影算子,投影过程如下:

其中,θ是投影算子根据ρ和W计算出来的阈值,通过使用L1投影算子的求解方法来保证解的稀疏性,同时通过求解L1投影算子还能够显著提高算法的收敛速度(肖宿、郑颖,2015;韩东、盖衫,2018;刘福来、彭沪,2013)[9-11]。但是,这种求解方法的缺陷在于,在保证解的稀疏性的同时,若要提高收敛速度,需要付出 O(O=k×logn)①的计算代价(k 为解向量非零元的个数)。由于有这种计算代价的存在,导致这种方法的实现十分困难(Duchi J and Shalev-Shwartz S,2008)[12]。

Langford J(2009)认为,随机梯度下降方法(正则化问题中的一种方法)在实际使用过程中不具有稀疏性[13]。为了同时解决L1投影算子计算复杂性与算法解的稀疏性问题,Langford J(2009)等人提出了阶段梯度这一求解方法。阶段梯度的求解方法通过强制在梯度上进行截断而达到解具有稀疏性的目的,因而这种方法不具有明确的机器学习含义[13]。算法优化的目标函数普遍差异性较大,并且可能需要求解非凸优化问题,在增加求解难度的同时,也会导致算法的收敛速度不可估计。

前向后向分裂算法(也被称为FOBOS算法)是基于次梯度算法的一种改进算法,可以通过下式来描述:

其中,argWmin{}表示使括号内数据取最小值时的W值,Ψ(W)可取L1、L2以及L∞正则化项。这种FOBOS算法由两步组成,第一步是非常标准的随机梯度下降方法,第二步是在尽可能靠近第一步解向量的同时,使正则化项最小化。该方法通过确定算法的收敛性和regret界,②使算法的理论基础得到充分保障。当取L1正则化项时,算法的第二步就具有了解析解,则算法具有了稀疏性。

(二)基于坐标优化的多阶段方法

坐标优化方法也称为坐标下降方法,此算法包含内外两个循环。在外循环中,通过优化解向量的各个维的坐标,以实现一次外循环。在内循环中,在优化某一坐标时,固定W的其余d-1维坐标,使其不发生改变,那么对该维坐标(设为第j维)求解就类似于求解下面的单变量子问题:

由于在正则化问题优化形式的目标函数中有绝对值函数的存在,因而是不可微的,所以上式没有解析解,那么就不可能直接应用坐标下降法。除了坐标下降法以外,还可以应用其他方法,例如,针对式(5)的上界Aj(Z)≥Dj(Z)进行优化,以达到优化整体问题的目的。部分学者将其延伸并提出了BBR算法(董瀚泽、郭志川,2019)[14],将式(6)用类似泰勒展开的方法进行变形,在函数的信赖区域内,得到问题的最优解。但是目前来看,这种方法的收敛性仍然得不到一个准确的结论。Langford J(2009)通过对式(6)的损失函数进行二阶近似,得到解析解后再进行线搜操作,这样目标函数的单调下降性就可以被保证,此时算法也就具有了超线性的收敛速度[13]。

(三)软L1正则化方法

求解式(1)的另一种方法就是正则化共轭平均法(RDA)。正则化共轭平均算法的单步计算代价和多步骤算法的单步代价相当,同时又具有多阶段算法的优势(Duchi Jand Singer Y,2009)[15]。首先需要明确的是,数学优化方法和机器学习问题不是等同的,在某种程度上,数学的优化方法是机器学习研究的核心内容。通过随机梯度下降法知道,正则化项可以看作是普通的凸函数,应用次梯度方向迭代向量并不能发挥出正则化项的作用。这就等于说,这种方法没有真正了解机器学习问题的特点,而一些基于随机梯度下降法的改进算法,解的稀疏性也不够理想。上述提到的一些方法可以称为“硬”L1正则化,而RDA算法可看作是一种“软”L1正则化,因为在RDA算法中,正则化项中加了一个强凸辅助项h(W)=0.5,其在线算法的迭代过程可用下式来表述:

这里的{βt}是非负不减的名称的来源,用以表示所有次梯度(解向量共轭空间中的点的均值)。

添加辅助项h(W)后,解决问题的便利度获得了极大提升,其原因不仅是辅助项的添加使得RDA算法获得了最优的收敛速率和regret界,而且还可使式(7)通过迭代得到解析解,这也是RDA算法和一般随机梯度下降法的主要区别所在。

(四)双正则化分位回归方法

随着数据复杂性的日益提高,传统的L1正则化方法显现出了处理能力差的劣势,于是Koenker(2004)提出了条件分位回归模型(含随机截距)[16],其模型表达式为:

其中,αi表示随机效应,并在此基础上提出针对个体波动问题,可以通过施加L1正则化压缩的分位回归方法来解决,具体形式为:

但是,Koenker(2004)提出的方法仅仅考虑了含随机截距的混合效应模型[16],事实上,部分个体效应既可影响模型截距,还可影响模型斜率。在此基础上,罗幼喜等(2017)将条件分位回归模型推广至含多重随机效应的情况[17]。在给定个体随机效应αi的条件下,响应变量的τ分位回归函数表达式为:

进而,针对个体效应αi,运用L1正则化分位回归估计方法,函数形式为:

其中,λ为惩罚参数。然而,式(4)只能对条件分位回归函数的未知参数进行估计,不能同时对模型中重要自变量进行区分。因而,罗幼喜(2017)等进一步提出了双L1正则化分位回归方法[17],函数表达式为:

显然,该方法既可通过惩罚个体效应来防止模型“过拟合”,还可以针对固定效应系数进行惩罚来挑选变量,增强模型的精度与可信度。由于本文研究的仅仅是天津的经济高质量发展状况,选用的数据不涉及高维混合数据,故而采用简单L1正则化方法即可实现。

(五)经济理论综述

目前学术界认为经济高质量增长主要体现在数量和质量两个方面:一方面,经济增长保持在中高速水平;另一方面,经济增长的同时能耗降低、人民生活水平提升、劳动生产率提高(任保平、李禹墨,2018)[18]。同时,低能耗、高共享的经济发展方式也能促进经济高质量增长。因而,本文参考周小亮、吴武林(2018)的研究,用人均GDP、二三产业人均产值、城镇居民人均可支配收入、农村居民人均纯收入作为经济高质量增长的衡量指标,从经济发展可持续性、机会的公平性以及人民生活三个维度构建了衡量经济高质量增长的指标体系。经济发展可持续性包含了科研、产业结构与就业结构协调性、经济环境、绿色生产四个维度,采用R&D经费在GDP中占比、第二三产业就业率、通货膨胀率以及单位产出能耗比四个指标进行度量。社会机会的公平性包含了教育、就业、医疗和社会保障四个维度,采用人均受教育年限、失业率、每千人医疗机构床位数以及人均社保支出四个指标进行衡量。人民生活主要从减贫效果来考量,用改水覆盖率、人口死亡率和15岁及以上文盲率分别作为生活水平、健康水平损失程度和知识水平损失程度三个维度的衡量指标[19]。考虑样本容量和数据可获取性,本文选取的数据均来自2003—2017年《天津市统计年鉴》。样本数据集中反映了天津目前经济高质量增长状况,从而保证了模型的真实性与有效性。

三、最小角算法应用与Lasso回归

Lasso回归是一种较为常用的L1正则化方法,自1996年被提出以来,在机器学习中一直被广泛应用。Lasso回归算法的原理是,首先构造一个惩罚函数,然后由此得到一个比较简单的模型(陶春海、王玉晓,2018)[20]。这里所说的比较简单的模型是通过压缩一些不重要的变量系数,让其正好为0,也就是说,某些变量是对结果几乎是没有影响的,而Lasso回归可以筛选出这些变量,让这些变量被模型完全忽略。通过这种自动选择,让某些系数等于0,这样就使得一些原来变量比较多的模型更容易被解释。

(一)Lasso回归算法的原理

相较于其他算法,Lasso算法是一种实用性较强的回归算法,它的基本思想是使残差平方和最小化,并且满足所有回归系数绝对值的和小于一个常数的条件。通过这种方法,在模型的拟合过程中,就可以使一些回归系数严格等于0,这样得到的模型具有良好的可解释性,其数学表达式如下:

其中,B为模型系数,Xi和Yi分别表示样本中二维向量的具体值。模型(13)中的参数λ用来控制Lasso回归的复杂程度。参数λ越大,在拟合过程中拥有较多变量的线性模型受到的惩罚力度就会越大,通过这种方法,能使拟合出的模型拥有较少的变量。模型中的另一个参数α,可以控制当拟合模型是高相关性数据时模型的性状。Lasso回归中α=1,这就和惩罚函数的形式和目的相对应。可以尝试不同的值,得到不同值下所对应的λ,来选择当λ取最优时所对应的参数。与式(1)类似,式(13)也可等价转化为如下形式:

其中,t>0,是算法的调整参数,可以通过控制调整参数t来压缩总体回归系数。Efron(2004)和Tibshirani(1996)提出的交叉验证法就可以很好地用于t值的确定[21,22]。Lasso算法可以对变量进行压缩,同时还可以保证参数估计较大的变量得到较小的压缩,而把那些参数估计较小的变量压缩为0。在参数估计方面,Lasso分析还可以使参数估计拥有连续性,这样对于高维数据的拟合模型,就具有了很强的适用性。

Lasso回归的优点在于选择变量,它是通过参数估计来实现的。如果变量的参数估计较大,那么变量只会得到较小的压缩;如果变量的参数估计很小,那么变量就会被压缩为0。由于Lasso回归具有这个特点,所以得到的参数估计就具有了连续性。Lasso回归还有一个特点就是,当需要建立一个广义的线性模型时,不需要考虑因变量是连续的还是离散的。Lasso回归对离散或者连续的因变量都可以处理,这就表明,若数据较为复杂,一般最小二乘对数据的处理能力较低,则此时可以应用Lasso回归。这是因为,Lasso回归对于数据的要求比较低,应用范围也更加广泛。此外,Lasso回归还可以进行变量的筛选以及模型复杂度的调整。变量筛选的意思是,在拟合模型时,不需要把所有的变量都放进模型中,只需要把适合的变量放入模型,就可以得到一个完美的性能参数。复杂度调整是在保证模型反映数据关系的前提下,通过适当调整一些参数,从而使模型的复杂程度得到控制,避免出现过拟合之类的问题。一般来说,线性模型的复杂度和变量数量有明显的关系,模型的复杂度越高,变量数就越多。不同的变量在拟合过程中可以得到一个看起来更好的模型,但是也有可能成为模型过拟合的直接原因。

(二)最小角回归算法的原理

在介绍最小角回归算法之前,需要先介绍前项选择算法和前向梯度算法两个预备算法。

1.前向选择(Forward Selection)算法。前向选择算法用于求解线性关系Y=Xθ的系数向量,其中Y为m×1的向量,X为m×n的矩阵,θ为n×1的向量。m为样本数量,n为特征维度。可以把矩阵X简单地看成n个m×1的向量Xi(i=1,2,…,n),在Y的X变量Xi(i=1,2,…,m)中,可以选择一个和目标Y最为接近也就是二者余弦距离最大的变量Xk,然后用Xk来近似逼近Y,得到下式:

图1 前项选择法二维范例

当X只有2维时,可使用图1作为例子来表示,此时和Y最接近的是X1。首先在X1上面投影,图1中的长虚线就是残差。此时X1θ1模拟了Y,θ1模拟了θ(仅仅模拟了一个维度)。接着可以看出此时最接近的是X2,使用残差继续在X2投影,图1中短虚线就是现在的残差。至此,自变量全部被使用,X1θ1+X2θ2模拟的就是Y,对应模拟了两个维度的θ即为最终结果。θ计算较多运用了矩阵运算,此处不再赘述。

由于该算法只是对每个变量进行了一次操作,所以效率是极高的,算法运行的速度也得到了保障。但是,该算法同样存在一些不足,就是在自变量不具有正交关系的情况下,由于算法每一步都是在做投影运算,因此只能给出一个局部近似解。总体来看,这个简单的算法较为粗糙,还不能直接用于Lasso回归分析中。

2.前向梯度(Forward Stagewise)算法。前向梯度算法用到的原理中,带着前向选择算法的影子,二者原理有相通的地方,同样都是在Y的X变量Xi(i=1,2,…,n)中,选择和目标Y最为接近也就是二者余弦距离最大的一个变量Xk,用Xk来逼近Y。但是,前向梯度算法不使用投影这种粗暴的方法,而是每次在最为接近的自变量Xt的方向移动一小步,然后再看残差Yyes和哪一个Xi(i=1,2,…,n)最为接近。此时仍不能去除Xt,因为只是前进了一小步,仍然存在下面最接近的自变量还是Xt的可能性。如此进行下去,直到残差Xt减小到足够小,算法停止。

图2 前向梯度法二维范例

如图2,当Y只有2维时,和Y最接近的是X1。首先在X1上移动一小段距离,此处ε为一个较小的常量,可以发现,此时残差还是和X1接近。接着沿X1移动,当残差和X1的距离并不是最小,而是和X2的距离最小时,残差如图2中长虚线所示。继续沿着X2逐步移动一个常量,通过计算得到残差又重新和X1最为接近,那么继续沿着X1走,走完一步后发现残差为0,算法停止。此时,Y由刚才所有步相加模拟得到,对应算出的系数θ为最终结果。此处θ计算涉及较多矩阵运算,不再赘述。这种算法在ε很小时,得到的最优解是十分精确的,与此同时,算法计算的迭代次数也有较大增加。与前向选择算法相比,前向梯度算法更加精确,但是计算起来更加复杂。

3.最小角回归算法。最小角回归算法综合了前面所述的两种算法,对两种算法的迭代判别方法进行了折中处理,使得前向梯度算法的精确性得到了保留,同时前向梯度算法的迭代过程也得到了简化。下面对最小角回归算法的原理进行介绍。

首先,找到与因变量Y最接近或者相关度最高的自变量Xk,这时可以使用类似于前向梯度算法中的残差计算方法,得到新的目标Yyes。与前向梯度算法不同的是,不是每次前进一个较小的常数,而是继续直接向前移动,直到出现一个Xt,使得Xt和Yyes的相关度与Xk和Yyes的相关度是一样的,此时残差Yyes就在Xt和Xk的角平分线方向上,这个时候前进的方向就是残差角平分线,直到出现第三个特征Xp,当它和Yyes的相关度足够大时,即Xp和当前残差Yyes的相关度与Xt、Xk和Yyes的相关度一样,将其也加入到Y的逼近特征集合中,并用Y的逼近特征集合的共同角分线,作为新的逼近方向。以此循环,当Yyes足够小时,或者说所有的变量都已经取完了,算法停止,此时对应的系数θ即为最终结果。

图3 最小角回归法二维范例

如图3,只有2维时,和Y最接近的是X1,首先在X1上面走一段距离,当残差在X1和X2的角平分线上时,就沿着角平分线走,当残差满足要求时停止算法,此时对应的系数θ即为最终结果。

四、实证分析

L1正则化方法可以使模型参数拟合值变小,对过拟合状况有较好的调节作用,本文选取Lasso回归中的最小角回归法对少数指标进行线性验证,对过拟合现象进行有效抑制。用循环坐标下降法针对多个指标进行logistic回归,对影响经济高质量增长的指标进行筛选,并对两个模型进行对比,同时以此验证模型的有效性。

(一)岭回归算法的实现

部分学者认为,经济高质量增长指数与通货膨胀率(CPI)、R&D经费在 GDP中的占比、单位产出能耗比、二三产业就业率(分别为 X1、X2、X3、X4)相关,本文运用L1正则化中的Lasso回归来从中选出主要变量,建立线性回归模型加以验证,应用最小二乘回归得到的结果如表1所示。

表1 最小二乘回归模型

从表1看,截距和自变量的相关系数除X4外均不显著。观察数据特点,考虑 X1、X2、X3、X4间可能存在复共线性,因此利用R软件中car包的VIF函数查看各自变量间的共线情况,结果见表2。

表2 方差膨胀因子

从表2来看,除X3外各自变量的方差膨胀因子都超过10,认为存在复共线性,因此采用岭回归来拟合分析。岭回归方法是在最小二乘法残差平方和最小化的基础上,添加一个收缩惩罚项,也就是常说的L2范数。但是,岭回归收缩变量时,预测变量的待估系数只是接近0,并不等于0,因此,我们在应用岭回归时对于模型的结束不能很好地判断。所以说,即使岭回归可以使模型的复杂度得到降低,但还是需要通过Lasso回归来选择变量。岭回归L2范数中α系数的选择与模型的准确性密切相关,α系数过大会导致模型的精度较低,α系数过小又会导致模型过度拟合,从而失去了模型的现实性意义。

图4 岭迹图

从图4可以看到,当α=0.1时,方差膨胀系数已经接近于0,故这里采取α=0.1时的岭回归结果,结果如表3所示。

表3 岭回归结果

在各变量系数的显著性明显提高后,利用Lasso回归中的最小角回归法进行变量筛选,以解决共线性问题。

(二)Lasso算法的实现

经过分析,本文得到的LAR序列结果如表4所示。

表4 变量选择序列

由此可见,Lasso 的变量选择依次是 X4、X1、X2、X3,且拟合R2=0.98,说明拟合优度良好。

表5 Lasso回归变量选择

由于Lasso回归所使用的L1范数是绝对值之和,Lasso回归的损失函数是不连续可导的,因此求解L1范数的损失函数的最小值就变得较为困难,还需要应用坐标下降法进行分析。

五、L1正则化在logistic回归中的应用

(一)logistic回归模型

logistic回归模型是回归分析模型的一种,它是广义的线性模型,用于处理因变量为分类变量的回归问题。二分类法是logistic回归最常见的形式,也就是说,因变量满足二项分布。logistic回归在多分类的因变量问题中应用得非常广泛(曹芳、朱永忠,2012)[23],它实际上是一种分类方法,但是其原理也包含了回归模型的分析方法。

二分类的logistic回归所对应的问题都是二分类问题,二分类问题的结果发生概率和自变量之间是S型曲线,该曲线函数可以定义为:

该函数的定义域为全体实数,值则为[0,1]。当x的取值足够大时,该问题可被看作0、1问题,即二分类问题。大于0.5时可以看成是1类问题,小于0.5时则是0类问题,等于0.5时则可以看成0类问题也可以看成1类问题。当因变量是0-1型变量时,y=1的概率分布可以定义为:

如果采用线性模型来对数据进行分析,则可以将公式定义为:

但是在现实应用中,事情发生概率和因变量并不总是线性的,大部分时候是非线性的。当数据之间的关系是非线性时,可以运用logit变换,使logit(p)和自变量之间形成线性关系。logistic回归模型表示为:

这也可以表明,概率p和因变量之间存在非线性关系。当p大于0.5时,可以判断y更偏向于1,否则 y为 0。

logistic回归主要用来预测事情是否发生以及发生的概率,在已经建立回归模型的情况下,通过模型可以预测在不同的自变量下事件是否发生或者发生的概率有多大。logistic回归还可以用于分析影响结果的主要因素,对变量进行筛选,找出对因变量有显著影响的自变量。

(二)坐标下降法

坐标下降法是一种非梯度优化的机器学习方法,其原理是在每一步迭代过程中,在一个坐标的方向上进行线性搜索,然后通过循环使用不同的坐标方法,找到目标函数的局部极小值。

假设一个坐标下降法的目标函数,是求解f(x)的极小值,其中 x=(x1,x2,…,xn)是一个 n 维的向量。首先从初始的点x0开始,然后对k进行循环,开始计算:

每次迭代过程只是更新了X的维度,也就是当进行X一个维度的计算时,把其他维度看作是常量,然后通过求解目标函数取得最小值时所对应的新的值,得到在这个维度下的最小值。坐标下降法求解问题的思路就是通过迭代的构造x0、x1、x2…来使问题得到解决(熊岑、张若秋、李辉,2018)[24]。

相对于机器学习的另一种优化方法(梯度下降法)而言,坐标下降法的优点是不需要计算目标函数的梯度,它是在每一步的迭代过程中,求解一个一维搜索问题,因而可以应用于某些复杂问题的计算。但是,在目标函数不是光滑的情况下,应用坐标下降法可能会陷入非驻点。

(三)坐标下降法的应用(logistic回归)

logistic回归也会面临过拟合问题,因而要考虑正则化,相比普通的logistic回归损失函数,logistic回归的L1正则化损失函数增加了L1的范数作为惩罚,超参数α作为惩罚系数来调节惩罚项的大小。二元logistic回归的L1正则化损失函数的具体表达式为:

其中,||θ||1为 θ的 L1范数。R 软件中 glmnet程序包解决L1正则化下logistic回归的方法为循环坐标下降法,其原理与Lasso回归的坐标下降法基本相同,此处不再赘述。

在上文中,通过岭回归和Lasso回归中的最小角回归法我们分析得出,在通货膨胀率(CPI)、R&D经费在GDP中的占比、单位产出能耗比、二三产业就业率中,对经济高质量增长有重大影响的因素为二三就业率和单位产出能耗比。在此基础上扩展指标维度,就经济发展可持续性、社会机会公平性、人民生活三个维度共11个指标展开分析,指标信息如表6所示。

通过在R软件中对各指标进行分析,在可行范围内,当λ最小时实现最精确的logistic回归,进而判断各指标对经济高质量增长水平的影响度,结果见图5。

观察图5并查看R软件输出结果λmin=0.015 7,可以发现,当λmin=0.015 7时,拟合优度最高,但又不会出现过度拟合的情况。根据拟合结果对11个指标进行筛选,结果如图6所示。

表6 经济高质量增长影响指标

图5 λ的选择

图6 结果筛选图

图7 指标系数图

从筛选图中可看到,除了指标4与指标8,其余指标对经济高质量增长的影响均被认为是0,也就是说,这些指标均被logistic回归剔除了。从系数图中可看到,索引不为零的两个指标,其系数一个接近10,一个小于-10,具体系数如表7所示。

表7 具体指标系数值

从具体指标系数值可以看到,指标X4(二三产业就业率)的系数为8.312 2,X8(15岁以上人口文盲、半文盲比例)的系数为-13.157 1,说明指标X4(二三产业就业率)对经济高质量增长有正向促进作用,这也与岭回归和Lasso回归结果相吻合。指标X8对经济高质量增长有负向作用,说明劳动人口的受教育程度对于本地经济高质量增长有着重要影响。

六、结论与建议

在线性回归中,L1正则化方法可以对变量进行筛选,从而避免了在模型拟合过程中出现过拟合现象,增加了模型的可解释性,提高了模型的可信度。在非线性回归中,L1正则化方法的应用同样能够对变量进行筛选,找出对因变量影响较大的自变量,从而根据自变量来判断事件是否发生(二分类模型)或者其他需要预测的结果(多分类模型)。基于实证分析结果,在Lasso回归过程中,对经济高质量发展影响由大到小的因素依次为通货膨胀率(CPI)、R&D经费在GDP中的占比、单位产出能耗比、二三产业就业率。在logistic回归模型中,对经济高质量增长具有影响的是二三产业就业率和劳动人口受教育程度。因此,驱动产业结构转型升级是提高经济高质量发展的有效途径,而产业转型升级的核心步骤是技术升级,技术升级的根本在于人才。政府应关注教育资源的公平获取与配置、社会保障体系的完善以及社会保障资源的有效供给,缓解社会矛盾。

一是注重人才培养,促进科技进步。技术进步是推动产业结构优化升级的直接动力,人才培养是技术进步的根本动力。产业结构不合理的重要原因是缺少核心技术、缺少创新性人才、缺少知名品牌,集中起来就是自主创新能力不强,因而增强自主创新能力是经济社会发展的关键所在。我国要加大对教育行业的支持力度,培养更多的科技人才以实现自主创新。自主创新不是放弃技术引进,而是要强化消化吸收与再创新。自主创新不是单纯的技术创新,还包括产业创新、产品创新和品牌创新。自主创新要坚持有所为有所不为,突出重点。

二是充分发挥政府产业政策的导向作用。各省有关部门需要按照中央政府调整产业结构的总体任务和要求,结合本地实际情况,制定具体措施,运用经济和法律手段加强对全社会投资的宏观调控,同时完善进出口、土地、财税等相关政策,引导合理投资。

三是积极合理地引导外资的流向。在积极引进外资的同时,还可以通过有关政策导向,改变外商投资结构,使之与我国产业结构调整的要求基本上趋于一致。从重外资引进规模向重外资引进质量转变,有选择地引进外资项目,减少一般性产业项目的引进,限制高能耗、高耗材、高污染项目的引进,鼓励设立研发中心,实现真正的产学研有机结合。

注释:

①O=k×log n表示时间与空间的复杂程度,在k元样本中,若样本容量是n,那么寻找一个元素需要进行k×log n次查找。

②regret界表示正则化项之间的解的误差。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!