当前位置:首页 期刊杂志

基于多视角缺失补全算法的数据挖掘研究

时间:2024-05-04

黄裕

摘要:针对数字化信息复杂度带来的海量多视角数据问题,并考虑到在大量的多视角数据的获取过程中,由于收集的难度、高额成本或设备故障等情况,往往会导致多视角数据出现视角缺失。提出了一种基于核回归的多视角数据缺失补全方法,采用离线核回归模型学习和在线多视角缺失数据补全构建了算法框架,通过引入高斯核核函数的方式,建立视角间的非线性回归模型,结合训练数据的线性组合来表示回归系数的最优解,以完成挖掘多视角数据间的互补相关性,有效实现缺失视角的补全。最后通过模拟三类数据集来验证基于多视角缺失补全算法的性能。

关键词:机器学习;多视角数据;视角缺失;核回归;核函数

中图分类号:TP391.6

文献标识码:A

0 引言

近年来,随着在图像、医疗保健、社交网络、传感器网络、多感知设备等数字化信息建设的快速发展,多視角数据(Multi-view Data)[1]的产生和收集变得更加方便和容易。所谓多视角数据是指[2],对于同一个语义对象,从不同角度、层面观察可以形成不同视角的数据、不同维度的特征集,或从多个源头得到的数据集。例如:医学诊疗中,可以利用核磁共振(MRD、正电子成像技术(PED、或其它生物标记(如CSD对阿兹海默病(Alzheimer)进行综合诊断、对数字图像利用不同技术手段提取的多种特征等等[3]。研究如何合理利用针对同一对象广泛存在的多个视角信息,实现对由多视角所刻画的对象的深度分析与理解,已成为当前机器学习领域的研究热点[4]。这类以面向多视角数据为研究对象的机器学习方法目前己被普遍接受为一种新的学习方式,即多视角学习(Multi-view-Leaming,MVD[5]。

在面临着多视角数据视角全部属性缺失时,简单地将不同视角串联,利用传统单视角数据缺失补全方法进行补全,并没有从多视角数据间具有的互补性考虑。通常多视角数据能够对同一个语义对象进行细致的描述,其本质在于多视角数据间具有较强的互补信息。由此挖掘多视角数据间的互补性,有利于提高对语义对象的理解。由于不同视角数据横跨异构空间,视角间并没有显示的对应关系,为此本文提出了一种基于核回归的多视角数据缺失补全方法,该方法通过引入核函数,建立视角间的非线性回归模型,挖掘多视角数据间的互补相关性,有效实现缺失视角的补全。

1 算法框架

图l所示为本文提出的基于核回归的多视角数据缺失补全框架图。其主要由两部分组成:

(1)离线核回归模型学习:针对多视角训练训练样本X与Y,通过核函数,建立多视角数据视角间非线性回归模型,获得最优回归系数W*。

(2)在线多视角缺失数据补全:针对多视角缺失数据{x,yα},基于上述离线所建立的核回归模型,实现多视角缺失数据的补全。

2 多视角数据缺失补全的核回归

2.1 核方法

在离线核回归模型学习中,需通过核方法建立多视角数据间的非线性回归模型,实现缺失视角数据的补全,在此本文首先介绍核方法。

核方法(Kernel Method)[6]是解决非线性模式分析问题的一种有效途径,其核心思想是:首先,通过某种非线性映射函数φ将原始数据x嵌入到合适的高维特征空间H;然后,利用通用的线性学习器[7]在这个新的高维特征空间中分析和处理模式。此时这个高维特征空间中的线性学习器相当于原空间是非线性的,即对原空间中的数据进行了非线性分析和处理。

而通常在处理非线性问题过程中的一项关键技术是核技巧(Kernel Trick)[8],即将输入样本对在高维特征空间内的点积运算可替换成关于输入样本对的函数k(x(i),y(i)),这里的函数k(x(i),y(i))就

2.2 模型学习

由于视角yc属性值完全缺失时,简单地将不同视角串联,利用传统单视角数据缺失补全方法进行补全,并没有从多视角数据间具有的互补性考虑。同时由于不同视角数据横跨异构空间,多视角数据并没有显示的对应关系,为此,本文引入核函数建立视角间非线性关系模型[12]。其模型的核函数本质上描述了同一语义对象横跨异构空间内数据的互补相关性。

3 实验结果与分析

3.1 数据集说明

采用NASA数据集、电影评分数据集和路透社(Reuters)数据集来验证基于核回归的多视角数据缺失补全方法的性能。

3.1.1 NASA数据集

该数据库是美国宇航局兰利研究中心大气科学数据中心所提供[14]。该数据集是通过卫星采集整理的中美洲区域(由24×24经纬度网格所覆盖的区域)的气象数据,包括温度(表面和空气),臭氧,空气压力和云量(低,中和高)等7个指标的观察值,其中上述观测数据均为1995年1月至2000年12月的每月平均值,一共72条气象记录。如表l所示,本文选取同一经度(113.8W)下的两个不同纬度(36.2N、33.8N)所采集的数据构成多视角数据集NASA_W验证本文基于核回归视角缺失补全算法的补全性能。

3.1.2 电影评分数据集

该数据集是由业内专业人士和观众分别对30个电视节目所作的平均评分数据库[15]。观众评分来自低学历、高学历和网络调查三种,而业内专业人士评分来自包括演员和导演在内的艺术家、发行与业内各部门主管三种。如表2所示,针对该数据库,本文选取观众评分作为视角X,专家评分作为视角Y来构造Movie_l多视角数据集验证本文基于核回归视角缺失补全算法的补全性能。

3.1.3路透社数据集

路透社(Reuters)数据库是1987年路透通讯社的文档数据集,包含135个类别,一共21578个文档,对每个文档分别提取96维和100维的特征数据形成两个视角的描述。本文选取其中10类共7757个文档进行实验,如表3所示,本文通过两个特征数据集构造多视角数据集Reuters_l验证本文基于核回归视角缺失补全算法的补全性能。

3.3 多视角缺失数据补全性能分析

3.3.1 NASA数据集的视角缺失补全性能分析

针对NASA时间序列数据集所构造的多视角数据集NASAW,从时间序列样本中选择整个时间段的前800/0的样本作为训练集,后20%的样本作为测试集,记为[80%,20%]。同理,还可构造[85%,15%]、[90%,10%]、[95%,5%]、[98%,2%]等实验数据进行补全实验。

为验证基于核回归的多视角数据缺失补全性能,本章设置测试样本{x,yc)的视角数据为完全缺失,即缺失视角缺失部分的比例设为(s -l)/s=100%。

从图2中可以看出,与其他的算法相比,本文基于核回归的多视角数据缺失补全算法取得最优补全性能,证明了利用多视角数据视角间的互补相关性可有效提高数据缺失补全性能。

3.3.2 电影评分数据集的视角缺失补全性能分析

针对电影评分数据库所构造的多视角数据集Movie_ 1,从样本中随机选择70%的样本作为训练集,剩余30%的樣本作为测试集,即[70%,30%]。同时,本实验还构造[80%,20%]、[90%,10%]等实验数据进行实验。

在电影评分数据库构造的多视角数据集Movie l上,不同算法在缺失视角缺失部分的比例为(s - l)/s=100%的补全性能对比如图3所示。

从图3中可看出本文基于核回归视角缺失补全算法的明显优势,证明非线性模型可有效捕捉多视角数据间的相关互补性,可进一步增强数据缺失补全性能。

3.3.3 路透社数据集的视角缺失补全性能分析

针对路透社数据库所构造的多视角数据集Reuters_l,本实验构造[70%,30%、[80%,20%]、[90%,10%]等实验数据进行实验。

在路透社数据库构造的多视角数据集Reuters 1上,不同算法在缺失视角缺失部分的比例为(s -l)/s=100%的补全性能对比如图4所示。

从图4中可以看出本文提出的基于核回归的多视角数据缺失补全算法的补全性能优于其他方法,这也间接证明传统的单视角数据缺失补全方法并不能很好地处理多视角缺失数据问题。

从上述针对NASA数据集、电影评分数据集以及路透社数据集视角缺失补全的实验可以看出,本文基于核回归补全算法明显优于其他算法的补全性能。由于多视角数据间的异构性,使得多视角数据间的近邻不具有可逆性,使得KNN方法的补全性能较差。在SVD缺失数据补全中,由于奇异值分解需要完整的矩阵,因此在补全缺失数据时,需对矩阵缺失的元素预填充为0值,进而通过矩阵分解实现缺失数据的补全,然而,这时补全的值更为接近0值,使得补全的性能较差。在NMF缺失数据补全中,由于进行非负矩阵分解,要求矩阵的元素均为非负数值,因此针对含有负值数据的数据集,例如路透社数据库,该方法将无法进行;同时,针对视角数据完全缺失时,由于多视角数据视角间的异构性,简单的将视角串联并分解补全,最终导致补全性能较差。和其他单视角补全方法相比,本文基于核回归的多视角数据缺失补全算法通过利用多视角数据间的互补性建立非线性回归模型有效增强补全性能。本文基于核回归补全算法针对时间序列数据库,还可通过对未来时刻的缺失数据补全进行预测,例如在NASA数据库上的补全实验。

3.4 模型参数的影响

本文基于核回归的多视角数据缺失补全实验主要由以下参数影响补全性能:核回归的正则参数A、高斯核函数的宽度σ。

以NASA_W多视角数据集为例,在基于核回归补全的实验中,当高斯核函数宽度σ=5时,回归正则参数λ对补全性能的影响如图2所示。当回归正则参数λ= 0.1时,高斯核函数宽度σ对补全性能的影响如图5所示。

图5表明,λ取值在0.1左右时,取得最优补全性能。当λ取值过大或过小时都会降低核回归补全算法的性能。图6表明,σ取值在5左右时,取得最优补全性能,若σ取值过大或过小会导致补全性能较差。

4 结论

针对视角完全缺失的多视角数据,提出了基于核回归的多视角数据缺失补全方法。方法通过引入核函数,建立视角间的非线性回归模型,挖掘多视角数据间的互补相关性,有效实现缺失视角的补全。

参考文献

[1]冯昌,廖士中,大规模核方法的随机假设空间方法[J],计算机科学与探索,2017,(03):1-9.

[2]刘正,张国印,陈志远,基于特征加权和非负矩阵分解的多视角聚类算法[J].电子学报,2016,(03):535-540.

[3]刘望舒,陈翔,顾庆,等,一种面向软件缺陷预测的可容忍噪声的特征选择框架[J].计算机学报,2016,(39):1-16.

[4]杨金鸿,邓廷权.基于距离度量学习的半监督多视角谱聚类算法[J].四川大学学报:工程科学版,2016,(ol):146-151.

[5]孙瑞丽,陈盛双,李石君,改进SVM算法的电商行业竞争对手识别[J],河南科技大学学报:自然科学版,2016,(O1):46-50+7.

[6]张丹丹,邓赵红,王士同.面向多视角数据的极大熵聚类算法[J].计算机科学与探索,2016,(04):554-564.

[7]王伟,任建华,刘晓帅,等,基于混合隶属度的模糊简约双支持向量机研究[J].计算机工程与应用,2015,(10):36-41.

[8]刘春燕,王坚,基于几何聚类指纹库的约束KNN室内定位模型[J].武汉大学学报:信息科学版,2014,(ll):1287-1292.

[9]谭姗姗,张培倩,李再兴,基于迭代加权回归的推荐算法[J].数学理论与应用,2014,(03):38-47.

[10]刘中健,赵知劲,尚俊娜.快速NMF盲源分离算法[J].信号处理,2014,(06):699-705.

[11]王怀宇,李景丽.网络海量数据中隐私泄露检测方法仿真[J].计算机仿真,2014,(06):429-432.

[12]卢炜良,江开勇,林俊义.无编码全局控制点多视角三维数据拼接[J].光电工程,2014,(05):57-62.

[13]黄炜,刘坤.面向信息特征模式识别的核方法研究综述[J].现代情报,2014,(03):168-176.

[14]俞翔,朱岱寅,张劲东,等,基于设计结构化Gram矩阵的ISAR运动补偿方法[J].电子学报,2014,(03):452-461.

[15]俞晓群,马翱慧.基于Kriging空间插补海表叶绿素遥感缺失数据的研究[J].测绘通报,2013,(12):47-50.

[16]毛金莲,自适应多视角学习及其在图像分类中的应用[J].计算机应用,2013,(07):1955-1959.

[17]陈中杰,蔡勇,蒋刚.复高斯小波核函数的支持向量机研究[J].计算机应用研究,2012,(09):3263-3265.

[18]闫鹏程,孙华刚,毛向东,等.基于EMD与SVD的齿轮箱分形诊断方法研究[J].电子测量与仪器学报,2012,(05):404- 412.

[19]汪廷华,陈峻婷.核函数的选择研究综述[J],计算机工程与设计,2012, (03):1181-1186.

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!