基于SVM 主动学习的制革企业财务管理数据分类方法

时间：2024-07-28

高溪，王良浩

（1.中国农业大学烟台研究院，山东烟台 264000；2.广西职业技术学院，广西南宁 530001）

1 引言

财务管理是企业管理中至关重要的一项任务，对制革企业而言也不例外。随着信息技术的快速发展和应用，制革企业财务管理的数据处理和分类变得越来越关键。在现代经济环境下，制革企业面临着诸多挑战和机遇。合理的财务管理和决策对于企业的财务健康和稳定发展至关重要。然而，由于制革企业的特殊性，其财务管理数据的分类问题需要额外的关注和研究。在过去，许多制革企业仅仅采用传统的财务分类方法，无法满足企业发展和管理的需求。同时，财务管理数据分类方法也可以帮助企业进行风险评估和预测，及时识别潜在的经营风险并采取相应的措施。因此，探讨制革企业财务管理数据的分类具有重要意义[1，2]。

当前针对该问题的研究已经取得的一定的进展，例如文献[3]提出基于聚类算法的医疗财务大数据分类方法。采用PNCC 模型对数据进行降噪，从而消除了数据中的噪声对分类效果的影响；对财务管理数据进行自适应邻域选择，对其进行降维处理，建立QS-KFCM的聚类算法，实现对海量财务管理数据的精确分类。文献[4]提出基于融合马田体系的财务非均衡数据分类方法，该方法将马田体系和AdaBoost 算法相结合，根据前一基分类器的预测结果，对财务非均衡数据分类方法进行调整，从而得到相关的分类结果。文献[5]提出基于RPA 技术的财务数据分类方法。该方法结合多源数据构建了一种性能较优的财务机器人管理的数据交互模型。该模型利用RPA 技术，能够自动与税务、银行等外部相关系统进行接口对接，并实现财务机器人业务数据的自动分类处理。

然而，制革企业的财务管理数据可能涉及多个方面，如财务会计、成本管理、预算、资金管理/经营指标数据等，而每个方面都有自己的特点和指标体系。由于制革企业的特殊性，传统的财务管理数据分类方法往往难以满足其需求。此外，制革企业的财务管理数据可能存在不平衡性和非线性关系，使得难以标注代表性的样本，使得传统分类方法在应对这些数据时效果不佳。因此，本文引入SVM主动学习方法，设计一种新的制革企业财务管理数据分类方法。SVM主动学习是一种机器学习算法，它结合了SVM和主动学习的思想。在制革企业财务管理数据的分类问题上，SVM主动学习通过主动选择最具代表性的样本进行标注，从而最大程度地减少标注过程中的工作量，提高数据属性标注的效率，能够提高分类准确性和适应性。

2 制革企业财务管理数据分类方法

2.1 制革企业财务管理数据降维处理

由于市场规律和宏观经济因素的影响，制革行业普遍具有周期性波动。需求、价格和盈利水平在不同的周期中可能表现出不同的趋势，这对财务管理数据产生直接影响。为了解决这个问题，在对制革企业财务管理数据进行分类之前，需要进行样本处理和向量化。针对这一需求，制革企业财务管理数据分类过程先对原始数据进行了标准化或归一化处理，将各个财务指标归一到相同的尺度范围内，以便在分类过程中更有效地比较它们的相对大小和趋势。基于SVM 主动学习的制革企业财务管理数据分类方法的创新之处在于，在考虑周期性波动的情况下，能够更准确地捕捉到财务管理数据的潜在特征和趋势。通过将数据转换为向量模式并对其进行标准化处理，可以更好地对不同周期的数据进行比较和分类，从而提高分类结果的准确性和鲁棒性。这种方法对于制革企业财务管理数据的分类与分析具有重要意义。

结合向量空间模型，将制革企业财务管理数据特征项的权重用{W1,W2,…,Wm}表示，其中Wi代表第i 个特征项的权重。计算制革企业财务管理数据的整体权重值：

通过上述的处理和计算，将制革企业财务管理数据库表示为规格为m ×n 的资源矩阵，则有：

上式中，αij为制革企业整体财务管理数据量，m 代表资源库中含有的不同财务管理数据类型[6，7]。

制革企业的经营涉及多个环节，这就意味着财务管理数据反映了企业在不同方面的特点，如资产负债结构和融资状况，同时也体现了各项成本的变化和占比情况。然而，由于制革企业的复杂性，财务管理数据往往处于高维向量空间中，其中特征维数可能高达几十万。在高维向量空间中进行财务管理数据的分类和处理具有一定的困难。为了有效解决这一问题，需要对财务管理数据进行降维处理，将特征维数压缩至适当的大小，以匹配训练样本数量。通过降维，可以有效去除财务管理数据中的噪声，并提升分类效率和准确度。通过降维处理，将制革企业的财务管理数据转化为更加紧凑的表示形式，可以减少不必要的冗余信息，同时保留重要特征，这有助于提高财务管理数据分类的质量。通过合理的降维方法，能够在保持数据的完整性和准确性的同时，显著降低计算复杂度，提升财务管理数据分类过程的可行性和可靠性。

通过互特征选择方法计算不同制革企业财务管理数据的信息量对应的比重值[8]，具体的计算式为：

2.2 基于SVM 主动学习机的数据分类

以降维后的制革企业财务管理数据为基础，SVM 将制革企业财务管理数据U 中的样本数据x映射到特征空间中[10]，此时的特征空间可表示为：

上式中，z 为特征空间，φ(x)为映射量。在特征空间维度较高的条件下，考虑数据的线性可分性，促使权向量w 和b 需要满足以下的约束条件：

上式中，w 为权向量，b 为偏置项，训练样本集代表w 和φ(x)的点积，通过SVM组建超平面(+b)：

引入松弛因子ζi≥0，则有：

为了简化操作流程，最优分类面问题可用公式（8）表达，其中在约束条件下函数最小值，即：

上式中，Cp代表惩罚参数。

由于特征空间的维数十分高，w 和φ(x)的取值不精准，引入核函数K (x,x')：

通过径向基函数将线性不可分问题改为线性可分问题，该函数用以下公式表示：

式中，y 为财务数据维数。

现阶段SVM训练算法的速度并不理想，主要是受到目标函数对应矩阵维数的影响，致使问题的求解速度下降和维度增加[11，12]。为了有效解决上述问题，将主动学习加入到SVM[13]中，主动学习[14，15]可以通过选择具有较高不确定性或边界样本的方式进行主动查询，只需标注这些样本，即可获得信息丰富、高价值的训练数据，从而降低了标注成本。通过选择具有最大信息收益的样本进行查询，将这些样本添加到训练集中进行模型训练，可以提高模型的性能和鲁棒性。由于主动学习能够针对目标任务聚焦于关键样本，使得模型对关键样本的分类准确性更高，从而提高了整体分类效果。具体操作步骤为：

在特征空间中搭建SVM 主动学习机，SVM 主动学习机由两个部分组成（f,q），f 代表独立的分类器；q 代表查询函数。SVM主动学习机主要是通过查询函数确定最终的查询策略，同时在未进行标注的候选集U 中选取下一个需要进行标注的样本，结合决策概率进行数据分别，以保证后续的数据分类质量与效率。

制革企业运营面临多种风险和不确定性会导致财务管理数据的波动和变化，因此在对制革企业财务管理数据分类的过程中，分类间隔中生成的样本会影响分类器的构建，为了确保分类结果的准确性，在每次进行分类面选择时，选择距离分类器距离最近的样本为最新的样本。但是在整个操作的过程中，仍然会对分类器的性能产生影响，为此需要利用SVM 主动学习机对于制革企业财务管理数据进行标注，具体操作步骤如下：

（1）从候选集U 中选择i 个代表性样本，按照不同的类型进行标记，建立一个初始的训练样本集T。

（2）通过T 建立分类器f 。

（4）从样本集U 中选择出最接近于分类器边缘的、未标记的样本(x,)。

（5）将不同的制革企业财务管理数据进行标注后，直接放置到训练样本集T 中。

（6）假设检测精度达到设定的范围内，则停止计算；反之，则返回步骤（2），重复上述操作，完成数据属性标注，得到标注后的数据样本集L0。

基于SVM 主动学习机的制革企业财务管理数据分类流程如下：

步骤1：初始化带类别标注样本集L0,L0=L；未带类别标注候选样本U0,U0=U 。

步骤2：进行第i 次采样学习，在样本集L0基础上寻找最优分类超平面fi，计算该样本集数据属于这一样本集的最大决策概率值，该值的计算公式如下：

式中，p 为初始候选样本量，q 为最终标注样本量。

步骤3：针对每一个候选样本Ui∈U，假设P（b）代表第二大的决策概率值，得到制革企业财务管理数据分类的初步决策函数，该函数用以下公式表示：

上式中，k 代表Kappa 系数，δ（Ci）代表训练样本中属于类别Ci的样本概率，其计算公式如下：

上式中，A（Ci）代表训练样本中属于类别Ci的样本总数。

结合上述分析，制革企业财务管理数据分类结果如下：

3 仿真实验

为了验证所提基于SVM 主动学习的制革企业财务管理数据分类方法的综合有效性，在MATLAB R2016a 软件中进行测试，实验环境设置如表1 所示。

表1 实验环境设置

选用山东省中小型制革企业作为研究对象，采集该研究对象2020-2022 年的所有数据。由于所采集到的制革企业的所有数据包含非财务数据，这类数据属于冗余数据，因此需要对其进行筛选与去除处理，具体过程如下：

（1）确定非财务数据范围：非财务数据涉及到公司员工信息、市场销售数据、供应链数据等与财务管理无关的信息。

（2）数据集初步筛选：根据确定的非财务数据范围，对整个数据集进行初步筛选，并通过查看数据字段、列名、描述或文档来确定包含或排除某些数据。

（3）人工查找与删除：基于对数据的了解、特定关键词或指标的搜索来确定哪些数据是非财务数据，并通过人工方式将其从数据集中删除。

随后，在实验过程中从筛选得到的财务管理数据集中选取相关共计3000 条数据，其中包含现金流数据、投资数据、筹资数据、财务会计数据、成本管理数据、预算数据、资金管理数据、经营指标数据、税务数据、经营报表数据。通过对上述数据进行降维处理，去除数据中的冗余特征，再进行实验数据的选取。具体实验数据类型如表2 所示。

表2 实验所用数据类型

实验过程如下：

对财务管理数据进行清洗、去除异常值、处理缺失数据等操作，确保数据的质量和一致性。将文献[3]方法和文献[4] 方法以及所提方法作为实验对比方法，通过对比不同实验指标来对于不同方法的实际应用效果进行了深入验证。

实验指标1：将所有实验数据以打乱的形式使其分散在样本空间中，利用不同方法对于其进行分类，哪种方法够将相同属性的数据分为一类，则说明该方法的分类效果好。

实验指标2：在制革企业财务管理数据分类的过程中，容错率是指分类方法对错误分类或误差的容忍程度。它衡量了在分类过程中允许的错误预测的比例。较高的容错率意味着模型对于错误分类或误差的容忍性较高，可能会导致更多的误报或漏报。

实验指标3：Kappa 系数考虑了不同方法的分类准确率与预期准确率之间的一致性，用于评估方法与随机分类之间的差异，其取值范围为[0,1]。

文献[3]方法和文献[4]方法以及所提方法的制革企业财务管理数据分类效果如图1 所示。

图1 制革企业财务管理数据分类效果

分析图1 中的结果可知，利用文献[3]方法对于制革企业财务管理数据分类后，部分数据被归为一类，但是有更多的数据依然并未归类，因此这种方法的分类效果比较差。利用文献[4]方法对于制革企业财务管理数据分类后，虽然能够将数据分为8 个类别，但是分类结果中存在较多的漏分和错分情况，所以这种方法的分类效果依旧不佳。而与这两种方法相比，所提方法能够将所有样本数据精准分为7 类，存在漏分情况，但是不严重，说明这种方法的分类效果好。

文献[3]和文献[4]方法以及所提方法的制革企业财务管理数据分类容错率对比结果如图2 所示。

图2 制革企业财务管理数据分类容错率

分析图2 中的实验数据可知，制革企业财务管理数据分类容错率随着实验次数的增加具有显著的波动变化趋势。其中，文献[3]方法的制革企业财务管理数据分类容错率最大值为36.7%，最小值为14.6%；文献[4]方法的制革企业财务管理数据分类容错率最大值为37.2%，最小值为18.1%；所提方法的制革企业财务管理数据分类容错率最大值为6.8%，最小值为2.8%；综合来看，所提方法的制革企业财务管理数据分类容错率曲线始终位于实验对比方法之下，且变化较为稳定，说明该方法的容错率较低，能降低数据错误分类发生的概率。

文献[3]方法和文献[4]方法以及所提方法的制革企业财务管理数据分类Kappa 系数对比结果如表3 所示。

表3 Kappa 系数对比结果

分析表3 中的结果可知，所提方法的Kappa 系数均值为0.92，文献[3]方法的Kappa 系数均值为0.76，文献[4]方法的Kappa 系数均值为0.61。经过对比可得，所提方法的Kappa 系数更接近与1，说明该方法的分类结果与真实结果之间一致性更高，具有较高的预测精度。

综合分析上述各项测试指标可知，所提方法的分类效果、容错率和Kappa 系数均高于另外两种方法，最为主要的原因是：在实际操作的过程中，所提方法加入了主动学习算法对制革企业财务管理数据进行分类，促使整个方法的各项性能均得到有效提升，同时具有较强的鲁棒性。

4 结束语

财务信息是企业运营和决策的重要基础，通过对财务数据的分类和分析，可以帮助管理者更好地进行战略规划、风险控制和决策制定，因此提出了一种基于SVM 主动学习的制革企业财务管理数据分类方法，以期为制革企业面临的复杂市场环境和周期性波动所带来的挑战提供了一种创新的解决方案。仿真实验结果表明，所提方法能够有效提升方法的分类效果，降低容错率，提升预测精度，分类效果达到了相关预期。该方法能够给制革企业提供了一种精确、高效的解决方案，可以帮助企业更好地理解和分析财务管理数据，从而做出更为准确的业务决策。