当前位置:首页 期刊杂志

函数型数据分析若干方法

时间:2024-05-04

靳雪晴

(铜陵学院数学与计算机学院,铜陵 244000)

0 引言

在实际生活中,我们需要对很多数据进行深度挖掘,例如身高增长、医学病例诊断、天气变化、各种数据分析用到医学诊断、气象报告、儿童增长分析、笔记识别、脑电数据分析等等方面。函数型数据分析就是这样一种新型的统计学分析方法,它相比于普通常见的方法,具有更强的适用性。这是因为函数型数据分析具有能够对无限维的数据进行分析,并且还能够对数据进行多重降维而且把握更多更有利信息的特点[1]。随着科技的发展,函数型特征的数据应用越来越广泛,也促使函数型数据分析方法正处于迅速发展阶段。

函数型数据就是把数据用函数的形式表现出来,它具有一个非常明显的特征就是这个函数具有数据性。当我们在分析一些普通的数据的时候可能只会用到普通的函数去研究他的一些数据的简单排列,但是在面对非常多维的、间隔非常密集数据的时候这些普通函数就会无从下手,而且在数据统计中,经常有一些数据无法获取,就算能够获取也需要付出很大的代价。常常出现数据缺失的现象,很大程度上阻碍了科学的进步与发展。数据缺失的情况可以总体概括为以下几点:①完全随机缺失。②随机缺失。③不可忽略缺失。我们这时候就会需要一个新的函数来对他们进行数据的收集,以及进行普通函数无法进行的全面的深刻的分析。对于这种现象我们就应该对数据采用函数型数据分析方法来进行弥补,尽可能的保留有用的信息,还原真实的情况。函数数据不同以往把函数当成一连串的点的集合,而是把函数数据当成一个个单独的项。函数型数据表现形式一般都是一条平滑的曲线或者就是一连串的函数xi(t)构成的,这其中的t一般都是时间,当然也能是除去时间外的自由变量;xi(t)中i取1,2,3…,N它则表示被测试对象的数量[2]。

函数型数据分析的基本想法是将带有某种函数性质的数据看成一个整体,并非当作个体观测值的一个序列。一方面,它克服了纯粹的非参数函数回归模型的维数限制。同时使得与线性部分的解释作用变得更加容易,另一方面,考虑一些自变量和因变量之间的关系为非线性会比标准的线性回归更加灵活。

1 含函数型数据模型的介绍

函数型数据模型的介绍:本文将介绍三种函数型数据模型:完全模型、部分模型、含误差模型。

1.1 完全模型

其中T满足:

而且Γ还是L2[0,1]→L2[0,1]上的算子,其中β(s,t)符合条件,那么我们认为函数型的随机误差εi(t)是互不相干的,并且E{εi(t)}=0,E‖εi(t)‖2=a2<∞,我们这边不对εi进行是不是同分部进行要求;模型中数 据 对 (X i(t),Y i(t))满 足χi(t)∈L2[0,1],Y i(t)∈L2[0,1][3]。

1.2 部分模型

如果在一个数据中既存在向量型又存在函数型的话,我们就称这个数据为混合数据,像这样同时含有向量型和函数型数据的模型在我们的日常生活中也是经常存在的。

在公式中Y是在概率空间(Ω,β,P)上的随机的变量,且这个值是实值,那么Z代表的是(Z1,…,Z p)T上边的随机变量,这个值可以是0维到P维的实值[4]。{X(t):t∈Γ} 是在(Ω,β,P)概率空间上的过程值,整个公式的样本是在[0,1]上的函数。式中的β=(β1,…,βp)是在任意一个维度上的参数向量,根据公式可以知道e,X(t),Z他们三个是互相不相关的。那么在β(t=0)β(t)=0的时候,本模型就是属于经典的线性的回归方程。

1.3 含误差模型

1.3.1 解释变量带有测量误差

在考虑函数型回归模型中解释变量带有测量误差的情形时,大多研究中只考虑一个解释变量的测量误差,而实际中我们的函数型回归模型中不止一个解释变量,可能是两个或两个以上,即不止一个误差变量。

1.3.2 响应变量随机缺失

关于函数型回归模型在响应变量随机缺失的情形,模型大多为单参数模型,而较为忽略对于出现多个参数函数型回归模型的情形;而在处理缺失数据方法时会存在资源的大量浪费和丢弃隐藏在这些对象中的信息;同时在截面数据、时间序列数据及面板数据下建立的回归模型中考虑到解释变量有测量误差,同时响应随机缺失的复杂情形下模型的统计推断。

2 函数型数据分析法

模型通常采用的方法。函数型数据的分析法,主要分为对数据分析、统计分析、主成分分析、最小二乘估计等。新型的函数型数据分析方法相比于较早的分析方法,他们有几个共同的地方就是分析出满足下一步计算所需的数据,突出不同特征的数据以及他们之间的变化联系情况等等。在本文中主要讲述主成分分析和最小二乘估计及其在函数型数据模型中的应用。

现大致介绍主成分分析法与最小二乘法的一些不足之处。①主成分分析法。主成分分析法中,应保证降维后的信息量保持在一个较高水平,因为其解释其含义带有模糊性,在变量降维过程中体现其弊端(即提取主成分个数m通常要小于原始变量个数p,除非p本身较小);另外,被提取的主成分需给出符合实际意义和背景的解释,否则研究无实际含义。②最小二乘法。当矩阵XTX不可逆时,不能用最小二乘估计,因为最小二乘法是线性估计,在本质上已经默认其是线性的关系,就表现出一定的局限性,而且在回归过程中,回归的关联式不可能全部通过每个回归数据点。但用于曲线拟合,当自变量与因变量均值为0时,相同方差的随机误差,该方法可给出统计意义上最好的参数拟合。

2.1 主成分分析

主成分分析法所利用的基本思想就是,函数在处理多维的数据的时候,通过对数据进行主要的成分把握,对数据进行有效的降低维度,对所处理的数据进行简化。尽管这样做会使得数据变的不是非常完整,但也通过降低纬度的方式掌握了问题绝大部分的重要信息,这样做会大大降低下一步对数据进行的难度。然后把这些提取出来的变量通过方差依次减少的方式进行排列。假设X=(x1,…,x P)是P维随机变量,Σ为它的协方差矩阵,λ1≥λ2≥…≥λP是Σ的特征值,Φ1,…,ΦP是相应的特征向量,根据矩阵的性质,我们可以得到:

考虑变换了的随机变量:

若Y代表新随机变量所成的向量,而ϕ代表以ϕ1,ϕ2,…,ϕP为各列的正交矩阵,则Y便由X通过正交变换Y=ϕX而得到。

2.2 最小二乘估计

最小二乘法估计一般使用于过度确定的系统,所谓的过度确定系统就是指未知数的个数是少于方程组的个数的一个系统,用回归方程来求近似解的传统方式。在最小二乘法中相对比较重要的值就是残差了,因为它反映了在曲线拟合过程中所采用的数据值与拟合值之间的大小差距[6]。当然在最估计中,残差还是越小越好,只有残差越小则说明拟合曲线越接近原数值曲线。在将残差最小化的过程中出现的问题一般可以归纳为二种,其中第一种就是针对线性的或者普通的最小二乘法、第二种就是非线性的。具体采用哪种方法还是要看数据的残差是不是线性的。无论是哪种情况他们的核心算法都是一样的,当所要处理的数据是线性的时候它本身拥有一个完整的解决方案,当所处理的数据是非线性的时候,这时候通常就会用到一种迭代方法,在每一次的迭代系统由线性近似。无论是哪种方式最终我们都能够一条由自变量和因变量拟合而成的曲线。回归分析它的最初目的就是对原数据进行科学估计从而更加清晰的表达出原数据,通常情况下在我们决定最佳拟合的时候,都是采用最小二乘法估计,因为使用最小二乘法来对数据进行估计是非常方便准确的。这种估计可以表示为:

3 结语

尽管说函数型数据的出现很大程度上丰富了数据同及分析的领域,逐步发展成了能够更好地解决现实生活中问题的好工具、好帮手。但是函数型数据分析毕竟是一个数学数据分析的新兴产物。它的很多方面还是有待完善,因此我们还需要不断地去探索研究这个领域。尽管说我们在进行函数型数据分析的时候引入了很多的基函数,从而得到所观测数据的函数型曲线。但是我们相信,随着科学技术的蓬勃发展,未来会有更多的基函数来供我们进行使用。

另外空间型数据分析相对于函数型数据分析来讲,能够处理里的维度信息更加庞大,并且这几年也得到了很好的发展,相信未来能有越来越多的分析方法来供我们更好地对数据进行处理。

免责声明

我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!