一种多层次分布式数据挖掘方法的改进研究

时间：2024-05-04

黄成兵

摘要：针对多层次分布式数据存在高维特征和类间不平衡因素的问题，提出一种基于随机决策树检索模型的数据挖掘技术。采用随机相位重组方法进行分布式数据的层次空间重构，在重构的层次空间中提取多层次分布式数据的关联维特征量，采用高阶特征压缩方法进行降维处理，实现分布式数据的自适应挖掘。仿真结果表明，采用该方法进行数据挖掘的准确性能较好、查准率较高、计算开销降低、性能优越。

关键词：多层次分布式数据；数据挖掘；决策树；检索；数据库

中图分类号： TN911.1?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）09?0070?03

Abstract： Aiming at the high?dimensional feature and inter?class imbalance factor exiting in the multi?level distributed data mining method， a multi?level distributed data mining technology based on random decision tree retrieval model is proposed. The random phase recombination method is used to reconstruct the hierarchical space of the distributed data. The correlation dimension characteristic quantity of the multi?level distributed data is extracted in the reconstructed hierarchical space， and performs the dimension reduction with the high?order feature compression method to realize the adaptive mining of distributed data. The simulation results show that the method has high accuracy for data mining， high precision ratio， low computation cost， and superior performance.

Keywords： multi?level distributed data； data mining； decision tree； retrieval； database

0 引言

在大数据环境下，大量的多层次分布式数据通过云技术积累并存储于网络数据库中，形成高维数据，在对多层次分布式数据采集和存储的过程中，由于采集手段的差异性以及测量误差的存在，导致数据挖掘的精度不高，从而影响了网络数据库的访问精度，需要对多层次分布式数据进行有效挖掘，结合特征提取和数据信息融合方法，进行多层次分布式数据的状态特征参量提取。研究多层次分布式数据挖掘方法在数据库访问和数据结构优化存储设计方面具有重要意义。

对多层次分布式数据的挖掘是建立在数据信息流模型构建和特征提取的基础上，目前使用的数据挖掘算法很多，按类别可分为模糊挖掘算法、层次挖掘算法、网格区域分割挖掘方法等[1?2]，通过对数据结构的属性类别分类处理和信息融合，实现数据信息特征检测和挖掘，取得较好的挖掘精度。文献[3]提出一种云计算环境下基于朴素贝叶斯分类的多层次分布式数据挖掘方法，进行多层次分布式数据归类，提取多层次分布式数据的语义关联性和规则性特征，实现数据优化挖掘，但该算法的计算开销较大，数据信息检测和挖掘的实时性不好。

文献[4]提出一种基于相关子空间的数据挖掘方法，采用属性维上的局部稀疏程度重新定义相关子空间，采用局部数据集的概率密度给出相关子空间中的计算公式，获取相关子空间中的数据分布特征，引入LSH分布式策略，实现对分布式数据的挖据，该方法提高了多层次分布式数据库检索的查准性，但是该算法随着多层次分布式数据库规模的增大，信息挖掘的准确性不好。

针对上述问题，提出一种基于随机决策树检索的多层次分布式数据挖掘方法。首先进行数据信息流构建和数据特征分析，对多层次分布式数据信息流进行特征空间重构；然后在重构的特征空间中提取多层次分布式数据的关联维特征量，采用高阶特征压缩方法进行降维处理，实现分布式数据的自适应挖掘；最后进行仿真试验分析。

1 多层次分布式数据信息流重构

1.1 分布式数据的特征空间结构模型

采用随机相位重组方法进行分布式数据的层次空间重构，构建多层次分布式数据的高维特征空间分布结构模型，假设多层次分布式数据的有限数据集为：

采用Takens嵌入定理进行多层次分布式数据的特征分布空间重构[5]：设是维的多层次分布式数据在高阶矢量场的紧流形；是光滑的矢量场；是上的一个光滑函数。采用高阶线性微分方程进行数据样本的添加或者删减，则当表示是一个嵌入向量。对于多层次分布式数据采样时间序列它的相空间重构轨迹为：

式中：表示数据分布特征空间的状态矢量；是重构延时；是嵌入维数；是对多层次分布数据挖掘的采样时间间隔。多层次分布式数据在聚类中心的收敛控制函数为：

利用奇异半正定性原理，建立多层次分布式数据挖掘的二次规划模型，在重构的特征空间中提取多层次分布式数据的关联维特征量。

1.2 数据流的关联维特征提取

在重构的特征空间中构建一组齐次方程，求得多层次分布式数据挖掘的极大线性无关组，得到多层次分布式数据的信息融合中心的极大线性无关组表达式分别为：

3 仿真试验分析

为了验证本文方法在实现多层次分布式数据的特征选择和优化挖掘中的应用性能，进行仿真试验分析。试验采用Matlab 7 仿真软件设计，在数据库中进行多层次分布式数据特征信息采样，采样样本的时间间隔为0.25 s，数據的点数为2 000点，特征空间重构的嵌入时延参数，维数干扰强度为0～12 dB，根据上述仿真参量设定，进行多层次分布式数据挖掘，得到的样本数据如图1所示。

分析图2的结果得知，采用本文方法进行数据挖掘，可降低多层次分布数据的空间组合维数，提高挖掘精度，与传统方法进行挖掘的准确性对比，得到的对比结果如图3所示，查准率和计算时间对比见表1，分析图3和表1结果得知，采用本文方法进行数据挖掘的准确性较好，查准率较高，且降低了计算开销。

4 结语

针对多层次分布式数据存在高维特征和类间不平衡因素的问题，本文提出一种基于随机决策树检索模型的数据挖掘技术。并利用仿真试验对本文方法与传统方法的性能进行对比，仿真结果表明，采用本文方法进行数据挖掘的准确性能好，查准率较高，计算开销降低，性能优越，具有较好的应用价值。

参考文献

[1] 王慧，张翠羽.基于改进遗传算法的网络差异数据挖掘算法[J].计算机仿真，2015，32（5）：311?314.

[2] 梁聪刚，王鸿章.微分进化算法的优化研究及其在聚类分析中的应用[J].现代电子技术，2016，39（13）：103?107.

[3] 张红蕊，张永，于静雯.云计算环境下基于朴素贝叶斯的数据分类[J].计算机应用与软件，2015，32（3）：27?30.

[4] 张继福，李永红，秦啸，等.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报，2015，26（5）：1079?1095.

[5] 蒋本立，张小平.大数据网络的均衡调度平台设计与改进[J].现代电子技术，2016，39（6）：62?65.

[6] 李根，樊龙，万定生，等.基于Map/Reduce的决策树分类挖掘方法应用研究[J].计算机与数字工程，2016，44（8）：1504?1510.

[7] 聂军.基于K?L特征压缩的云计算冗余数据降维算法[J].微电子学与计算机，2016（2）：125?129.