时间:2024-04-24
闫明杰(通讯作者) 石云瑞 .首都经济贸易大学管理工程学院 .河北科技工程职业技术大学
量化选股,简单来说就是数据挖掘领域的分类问题。其基本步骤为首先构建合适的指标体系,其次利用量化的数据统计分析工具判断和选择最优的股票进行投资等金融活动。然而近几年,中国股票市场规模逐渐壮大,市场内在不足和问题也不断暴露(如投资者盲目投资股票等),甚至影响了股票市场的发展。因而如何引导和帮助投资者转向理性的股票投资活动,是当前相关部门最为重视的难题。在股市决策中,理性投资的核心就是量化选股。因此,如何探索一个更为有效的选股模型,是当前急需应对的挑战。
目前中国股票市场形式多样化,影响投资者进行金融投资选股等活动的因素多元化,例如突发的社会事件、企业新提出的政策、利率的变动、空气质量、心里的情绪波动和业界人士的建议等等。基于此,如何构建一个更为有效的选股模型尤为重要。同时,京津冀协同发展政策的提出,极大地促进的当地产业经济的发展,也带动了京津冀地区股市的发展,甚至影响着中国股票市场的波动。那么如何在波动的京津冀地区的股市中更好地进行金融投资选股等活动,便成为了大多数投资者的一大难题。
针对以上问题,本文主要基于京津冀地区部分股票数据介绍了三种量化选股模型,即SVM、PCA-SVM以及RF-SVM模型,并对其选股结果进行了分析与讨论,为不同投资者选择合适的选股模型提供了新思路。
本文主要基于京津冀地区部分股票数据对选股模型进行分析与讨论。因此,本文选取了国泰安数据库中京津冀地区部分上证A股2018年的财务指标,并从7个方面一共选取了19个指标表示股票的整体状态,详细指标见表1。
表1 指标说明
本文剔除ST(破产、亏损等)股票和部分数据缺失的股票后,保留了150只股票数据,并对其数据进行标准化处理。其次,本文随机划分130条数据作为训练集,其余20条数据作为测试集。其中,我们默认选股模型为二分类模型,即通过分析股票的收益状况判断是否对该股票进行投资等金融活动。若分析该股票收益状况良好,我们便认为该股为优股,适合投资;若该股票收益状况较差,则认为该股为劣股,不适合投资。因此,我们将训练集中每股收益位于前30%和后 30% 的股票分别认为优股和劣股,并删除每股收益处于中间部分的股票,即实际训练集中为78只股票。由于本次报告侧重于预测结果,因此在此主要列举测试集中的股票代码如表2。
表2 测试集股票代码
支持向量机(SVM)是最为常用的监督学习分类模型之一,其效果优于其他多数分类模型,因此本文选择对其进行研究分析。该模型的核心在于构建一个分离超平面,并最大化不同类别的边界距离。在本文中,首先通过训练集得到训练后的分类器,然后对测试集的20只股票进行预测判断其是否适合进行投资,结果可得预测的准确率为65%,其中劣股预测的准确率为90%,优股预测的准确率为40%。同时,预测为优股中实际为优股的准确率为80%。预测为优股的股票代码分别为:600560、600158、600361、600011、603127。即投资者可以在20只股票池中,选择以上5只股票进行投资等金融活动,获益的准确率可达80%。
主成分分析(PCA)是最重要的降维统计方法之一,主要是将多个特征通过某种要求转变成较少的主成分。其应用较为广泛,例如对信号进行降噪处理等。本文首先对数据进行PCA处理,其目的在于使得降维后的特征累计方差贡献率大于85%,最终本实验通过PCA方法提取了七个主成分。其次再利用提取主成分后的数据训练模型并对20只股票进行预测。结果可得预测准确率为75%,其中劣股预测准确率为90%,优股预测准确率为60%。预测为优股中实际为优股的准确率为85.7%。预测为优股的股票代码分别为:601991、603533、600011、603127、600800、601669、603096。即投资者可以在20只股票池中,选择以上7只股票进行投资等金融活动,获益的准确率可达85.7%。其中600011和603127股票与上个模型预测结果相同。同时,投资者也可以在20只股票池中,选择600011和603127股票进行投资等金融活动。
随机森林(RF)是一种集成机器学习的方法,可以度量变量的重要性,并通过将其重要性排序后,选择出重要性较高的特征进行下一步的模型训练过程。根据基于SVM量化选股模型结果和基于PCA-SVM量化选股模型结果的对比,可以猜想降维在提高模型准确率上具有一定作用。为了进一步验证我们的猜想,本文还通过随机森林与SVM的结合模型进行了对比。首先通过随机森林对数据进行特征选择,选取了最重要的十个特征,然后建立RF-SVM模型。结果可得实际预测准确率为75%,其中劣股预测准确率为100%,优股预测准确率为50%。预测为优股中实际为优股的准确率为100%。预测为优股的股票代码分别为:603533、600011、603127、600800,603096。即投资者可以在20只股票池中,选择以上5只股票进行投资等金融活动,获益的准确率可达100%。其中600011和603127股票与上两个模型预测结果相同。同时,投资者也可以在20只股票池中,选择600011和603127股票进行投资等金融活动。
本文利用公司财务指标建立了SVM、PCA-SVM以及RF-SVM选股模型,并将其分类结果进行比较。结果发现数据的降维处理对优化SVM量化选股模型具有一定的作用,即PCA-SVM的选股模型和基于RF-SVM的选股模型均优于SVM选股模型。其次,基于PCA-SVM的选股模型和基于RF-SVM的选股模型在综合预测准确率上是持平的。最后,从预测为优股实际为优股的准确率的角度出发,基于RF-SVM的选股模型准确率高达100%,远优于基于PCA-SVM的选股模型(85.7%)和基于SVM量化选股模型(80%)。
因此,基于本文中的20只股票池,投资者有两种投资方案:1.激进投资者可以根据RF-SVM选股模型,投资股票代码为603533、600011、603127、600800和603096的股票。2.保守投资者可以根据这三个模型预测为优股的交集进行投资,即选择股票代码为600011和603127的股票进行投资等金融活动。
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!