当前位置:首页 期刊杂志

权重概率主成分分析模型的建立及应用研究*

时间:2024-08-31

哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)

高 兵 孙 琳 谢 彪 王文佶 曲思杨 刘美娜△ 张秋菊△

【提 要】 目的 建立权重概率主成分分析模型,通过模拟实验进行模型评价,选择最优模型进行代谢组学数据分析,为代谢组学数据分析提供降噪优化的分析方法。方法 使用折刀抽样法计算变量载荷的置信区间和变异系数,利用变量载荷的变异信息设计倒数式、开根式、对数式三种加权方式进行原始数据中的变量加权,结合概率主成分分析模型建立权重概率主成分分析模型;通过模拟实验从第一主成分载荷的估计和预测效能进行模型评价,选择最优权重概率主成分分析模型;绘制代谢组学数据主成分得分图,利用中心距离比较权重概率主成分分析模型与概率主成分分析模型在可视化分组效果。结果 倒数式加权概率模型在第一主成分载荷的估计和模型预测方面优于另外两种权重概率模型。在可视化方面,权重概率主成分分析不仅缩小了模型估计的不确定性,而且增大组间的中心距离。结论 构建了权重概率主成分分析模型,不仅结果解释和可视化优于概率主成分分析模型,而且为差异变量的筛选提供了一个较小的参考范围。

在高维组学数据分析中,权重主成分分析(weighted principal component analysis,WPCA)[1]是根据变量或观测的相对重要性等一些先验信息,赋予变量或观测不同缩放比例的权重,削弱噪声变量或干扰因素对分析结果的影响。概率主成分分析[2]模型将概率框架引入主成分分析,保留主成分分析对高维数据降维的特点,同时利用期望最大化算法(EM)对模型参数进行估计[3];主成分得分的概率分布可以直观体现模型分析结果的不确定性,通过折刀法计算出的模型的载荷置信区间,识别对数据分析影响较大的变量。概率主成分分析虽然在可视化方面凸显了模型分析结果的不确定性,但模型参数的极大似然估计与主成分一致[4],分析过程并未有效控制噪声变量对数据分析的影响。

本文在概率主成分分析和权重主成分分析的基础上提出权重概率主成分分析模型(weighted probabilistic principal component analysis,WPPCA),保留概率主成分分析在可视化方面的优点,借鉴权重主成分分析加权的思想,降低噪声变量对数据分析的影响,增强数据可视化效果,提供更小差异变量筛选的参考范围。

模型介绍

1.概率主成分分析模型

概率主成分分析最早由Tipping和Bishop提出[2],在高斯潜变量模型的基础上将概率框架引入主成分分析。模型表达式如下:

Xi=Wui+μ+εi

Xi=(xi1,…,xip)T代表观测i的原始变量,ui=(ui1,…,uiq)T代表降维之后与之相对应的潜变量,W是一个p×q的载荷矩阵,μ是一个均数向量。εi代表观测i的残差项,p(εi)=MVNp(0,σ2I),I代表单位矩阵。

假定潜变量ui满足多元高斯分布,即p(ui)=MVNq(0,I),在给定潜变量后观测变量的条件分布为:p(xi|ui)=MVNp(Wui+μ,σ2I)。由p(ui)和p(xi|ui)可知观测i的分布为p(xi)=MVNp(μ,WWT+σ2I),根据贝叶斯原理在给定原始观测后潜变量满足如下分布:p(ui|xi)=MVNq(M-1WT(xi-μ),σ2M-1),M=WTW+σ2I。概率主成分模型中的参数W,μ和σ2可以通过期望最大化算法进行估计,其最大的优点是不仅通过E(ui)=M-1WT(xi-μ)实现了数据的降维,减小了数据的复杂性,而且通过σ2M-1估计了潜变量的变异范围。

2.权重主成分分析

在对组学数据分析时,有时存在一些与组学数据相关的先验信息。权重主成分分析将这些先验信息转化为权重,纳入数据分析。权重主成分分析通过最小化其损失函数实现数据分析[5-7],其损失函数h如下:

构建权重概率主成分分析模型

在主成分分析中,通过各主成分所对应的载荷向量可以判断每一原始变量对数据结构的影响,解释数据特征。在主成分分析中由于各个原始变量所对应的载荷不为零的特点,当数据的变量数远远大于观测数时,大量噪声变量的存在很难根据各主成分的载荷向量对数据特征进行解释。在主成分分析的基础上引入概率模型虽然进一步增强模型结果的解释能力,放宽模型分析对数据的要求,但在分组方面与主成分分析相比却没有实质上的差别,因此本文利用权重主成分思想结合概率主成分模型构建权重概率主成分分析模型(WPPCA模型)。

构建权重概率主成分分析模型的基本思想:在某主成分中,当某一变量的载荷置信区间包含零时,则该变量对此主成分可能是噪声变量。相反若载荷的置信区间不包含零,则该变量可能为潜在差异变量,根据这些变量的载荷变异信息,对原始变量赋予不同的权重W,X′=XWTL,L1×p=[1,…,1],对X′进行概率主成分分析。该方法既可以保留概率主成分分析在可视化方面的优点,减弱噪声变量对数据结构特征的影响,增强数据可视化效果,同时也为差异变量提供了一个较小的参考范围。

1.权重的确定

关于权重的选择,对于载荷置信区间不包括零的变量,为了加强其对数据分析的作用,按载荷变异信息利用程度赋予不同的权重[1]:

方法(1):Wj=SV(Wj)-1+1。

方法(3):Wj=lnSV(Wj)-1+1。

方法(1)直接利用载荷变异系数的倒数对变量进行加权;方法(2)采用变异系数倒数的平方根加权;方法(3)采用变异系数倒数的自然对数加权。对于载荷置信区间包括零的变量,为了弱化噪声变量对数据结构的影响,对其施加的权重为1/max(Wj)。

2.折刀法抽样对参数置信区间的估计

模拟实验

本研究通过各个权重模型在载荷估计和模型预测能力等方面分别进行数据模拟实验并与PCA对比,选择最优模型。

模拟实验数据设置如下:

1.载荷估计

表1 模拟实验结果:PCA与WPPCA对第一主成分载荷的估计

2.模型预测

表2给出测试样本方差中位数及其中位完全偏差:WPPCA模型的预测效能优于PCA;三种不同权重的WPPCA模型,方法(1)在各种条件的情况下均优于方法(2)和方法(3),尤其在n

实例应用

本研究选取课题组绝经期妇女骨质疏松8人、非骨质疏松8人,测得其血浆代谢图谱,每个研究对象包含350个质谱色谱数据。结合实际代谢组学数据,绘制各观测的前两个主成分得分散点图。图1为PPCA模型前两个主成分得分的散点图,数据结构可视化方面不仅保留了主成分分析在不同维度上进行变异的最大化分解的特点,而且提供主成分的变异信息,可以直观地理解数据模型分析结果的可靠性。PPCA模型的载荷矩阵与得分矩阵的最大期望值与PCA保持一致,在分组方面两者效果相同,两组间第一主成分的中心距离为2.87;图2为WPPCA模型前两个主成分得分的散点图,组间分布的中心距离增大,两组间第一主成分的中心距离为3.87,更加清晰地揭示数据分组情况,同时也缩小参数的置信区间,使对主成分得分的估计更精确。

表2 模拟实验结果:PCA与WPPCA对模型预测能力的比较

图1 PPCA的主成分得分图

图2 WPPCA的主成分得分图

通过折刀法估计因子载荷95%的可信区间确定非零载荷,结果显示在350个变量中有70个变量的第一因子载荷的置信区间不包括零。图3为绘制变量载荷的频率图,选择因子载荷大于0.8的变量为两组间潜在差异变量的参考范围;图4为所选差异变量第一主成分载荷的均值及95%置信区间;图5为与之相对应的权重。主成分分析一般只注重前几个变异信息较大的主成分,根据前几个主成分中载荷较大的变量对数据进行解释,忽略了那些载荷较小变量。然而研究发现这些载荷较小的变量可能在图像分析有重要的意义[11],WPPCA模型对因子载荷变异较小的变量有时赋予较高的权重,见图5。

图3 载荷频率图

图4 第一主成分中因子载荷大于0.8的变量的载荷及其置信区间

图5 第一主成分因子载荷大于0.8的变量的权重

讨 论

权重概率主成分分析直接利用折刀抽样法所获得变量载荷变异系数的倒数给原始变量赋予不同的权重,一方面有效地控制了噪声变量对数据分析的影响,减小主成分得分的置信区间,使模型的参数估计更加

稳健;另一方面增强了潜在差异变量对数据结构的影响,使样本主成分得分的组间距离增大,模型估计的结果更加准确。本研究实际数据中组间距离的增大,验证模型中权重的选择、差异变量筛选的合理性。此外,权重概率主成分分析作为一种概率模型能够与其他模型相结合,增强模型的可拓展性,模型中期望最大化算法在数据含有缺失值情况下也可进行参数估计[3],增强了模型的数据适应性。

主成分分析本质上是观察变量到潜变量的一种线性投影[12],当这种线性假设不成立,即观测数据中存在潜在的分类结构时,基于单个权重概率主成分分析所进行的数据分析获得的可能是虚假数据结构特征,并不能揭示数据中观测的真正分组情况。如果将几个权重概率主成分分析模型相结合形成混合权重概率主成分分析模型,在数据分析过程中降低噪声变量对数据分析影响的同时,实现观测样本的确切分组和数据降维,这将是下一步的研究方向。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!