时间:2024-05-11
田载今
客观事物带有各种信息,这些信息的表现形式和载体叫作数据.例如,测量温度、湿度、气压、风力、风向等所产生的各种记录,都是研究气象问题离不开的数据,
统计过程主要分为三步:第一步是收集数据;第二步是整理数据,即对收集的原始数据进行整理、加工,从中提取出数据的代表;第三步是分析数据,即通过数据的代表研究数据中蕴涵的规律,从而研究已发生的事或预测将发生的事.
一、数据的集中趋势
分析数据时,通常关注“一组数据围绕哪个中心数值分布”.这个问题关系到一组数据的平均水平或一般情况,对发现事物的内在规律有重要参考价值,在统计学中,把一组数据向某一中心数值靠拢的情形,称为这组数据的集中趋势,为描述数据的集中趋势,可以选择不同的数据代表.如果从数据取值大小的角度描述,可用平均数作为数据代表:如果从数据排列位置的角度描述,可用中位数作为数据代表;如果从不同数据出现次数的角度描述,可用众数作为数据代表.这三个数据代表从不同角度反映数据的集中趋势,它们各有各的作用,分别适合于不同情况的数据分析.
例1 为比较A,B两个玉米品种,将它们分别种植在面积相等的多块试验田中,每块试验田只种一种玉米,下表记录了两种玉米收获后的产量分布情况.表中第一行为单块试验田产量,下面两行分别为A,B两个品种中与第一行产量对应的试验田的块数.
根据表中的数据解答下列问题:
(1)分别求A,B两种玉米单块试验田产量的平均数,并说明其意义;
(2)分别求A.B两种玉米单块试验田产量的中位数,并说明其意义:
(3)分别求A,B两种玉米单块试验田产量的众数,并说明其意义.
解:(1)从表中可知.A种玉米单块试验田产量(单位:kg)为700,750,800,850,900,950的试验田块数分别为4,20,26,20,18 ,12.通过计算加权平均数,得A种玉米单块试验田产量的平均数为XA=832 kg.
同理,B种玉米单块试验田产量的平均数为xB≈ 827 kg.
从计算结果可知,在单块试验田平均产量上A比B高5 kg.
加权平均数与通常的算术平均数本质相同,即n个数之和除以n的结果,只是加权平均数计算起来更简捷.
(2)将A的全部单块试验田产量(共100个)从小到大依次排列,相同的数据重复写,这100个数据中处于正中间位置的是第50个数据800和第51个数据850,这两数的平均数(800+850)÷2=825为A种玉米单块试验田产量的中位数,
将B的全部单块试验田产量(共99个)从小到大依次排列,相同的数据重复写,这99个数据中处于正中间位置的是第50个数据850,它为B种玉米单块试验田产量的中位数.
从计算结果可知,A的数据中小于825的和大于825的各占50个;B的数据中第50个数据850之前和之后的数据各占49个.这说明825 kg和850 kg可以分别作为A,B两种玉米单块试验田产量的中等水平的代表.
中位数可以不是原始数据.排序时既可以从小到大,也可以从大到小,两种排法找出的中位数相同.
(3)A的全部数据(共100个)中,出现次数最多的是800 kg(26次),800 kg即这组数据的众数.
B的全部数据(共99个)中,出现次数最多的是800 kg(25次)和850 kg (25次),800 kg和850 kg都是这组数据的众数.
从计算结果可知,虽然各块试验田中产量不尽相同,但也可能有规律存在,即在一般情形下,A的单块试验田产量是800 kg的可能性较大,B的单块试验田产量是800 kg或850 kg的可能性较大.
可以看出,一组数据的众数可能是一个,也可能不止一个.众数是原始数据中的数据.
平均数是最常用的一个数据代表,它通常能反映一组数据的平均水平.平均数的计算,要用到原始数据中的每一个数据.因此,一组数据中如有极端值(与多数数据相比过大或过小的个别数据)时,极端值可能对平均数影响较大.这种情形下如仍用平均数作为数据代表,往往与多数数据的大小产生较大偏差,不能恰如其分地反映一组数据的中心数值,这时,选择中位数或众数作为数据代表,或更能客观地反映一组数据的中心数值,
例2 下表为某地9月份每天空气中细颗粒物(即PM 2.5)的测定值及相应的天数.
(1)分别求表中数据的平均数、中位数和众数.
(2)所得的平均数能客观反映该地9月份空气中细颗粒物的含量吗?
解:(l)平均数约为34.9 yg/m3,中位数为24μg/m3,众数为24 μg/m3.
(2)观察表中数据不难发现,30天中有29天的测定值都不超过25 μg/m3,它们与平均数差距较大;30天中只有1天的测定值360μLg/m3远高过平均数,这可能是由于一次突发事故造成了空气严重污染.显然,因为有360这个极端值,才使得平均数的值很大.如果以平均数34.9 μg/m3作为数据代表,则不能客观反映该地9月份空气中细颗粒物含量的一般状况.而以中位数或众数24μg/m3作为数据代表,则能较好地反映客观实际.
二、数据的离散程度
“一组数据中各个数据与这组数据的中心数值的偏离程度有多大?”这是数据分析所关注的另一个主要问题,由它能从整体上描述这组数据的聚散状态.在统计学中,把一组数据中各个数据与这组数据的中心数值的偏离程度,称为这组数据的离散程度或离中程度.它反映一組数据大小的波动状态,从而描述了这组数据的稳定性.
方差是表示离散程度的常用数据代表,它的计算方法是,先计算一组数据的平均数,再计算各数据与所得平均数之差的平方和,最后用所得平方和除以这组数据的个数,这个结果被用于反映一组数据与平均数的偏离程度,对数据的变化幅度给予了定量的刻画.
例3 分别计算例1中A.B两组数据的方差,由所得方差你能看出哪种可能性?
解:s2=4 876,s2≈5 061.
从两个方差看,B的略大于A的,即B的数据比A的数据的离散程度略高,也即B的数据起伏略大,而A的数据相对来说略为稳定.
同学们可能会想:为什么计算方差要用各数据与平均数之差的平方和?如果直接把各数据与平均数之差相加岂不更简单?一般情况下,一组数据中可能有些数据比平均数大,有些数据比平均数小.如果直接用它们减平均数,则这些差会有正有负,如果再把这些差相加,就会出现正负相抵,例如,一组数据为2,2,3,3,4,4,其平均数为3,各数据与平均数之差分别为一1,-1,0,0,1,1.这些差之和为0.但这并不意味着这组数据都是紧靠平均数的.使用各数据与平均数之差的平方和,则利用了平方的非负性,防止做加法时出现正负相抵而隐藏了相关数据对平均数的偏离.方差名称中的“方”正是“平方”的简称.
你也许会问:为什么不用差的绝对值,而要用差的平方来分析离散程度呢?直接用绝对值不是也可以避免出现负数吗?不使用绝对值,是因为取绝对值在运算上要考虑差的正负,取差的平方则不需要考虑差的符号,而且只要四则运算即可获得避免正负相抵的效果.所以人们选择用差的平方来计算方差.观察下图,图1中数据的方差应大于图2中数据的方差,这一结论可通过测量距离或运用方差公式计算来证明.
我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自各大过期杂志,内容仅供学习参考,不准确地方联系删除处理!