数据的集中趋势和离散程度

时间：2024-05-11

田载今

客观事物带有各种信息，这些信息的表现形式和载体叫作数据.例如，测量温度、湿度、气压、风力、风向等所产生的各种记录，都是研究气象问题离不开的数据，

统计过程主要分为三步：第一步是收集数据;第二步是整理数据，即对收集的原始数据进行整理、加工，从中提取出数据的代表;第三步是分析数据，即通过数据的代表研究数据中蕴涵的规律，从而研究已发生的事或预测将发生的事.

一、数据的集中趋势

分析数据时，通常关注“一组数据围绕哪个中心数值分布”.这个问题关系到一组数据的平均水平或一般情况，对发现事物的内在规律有重要参考价值，在统计学中，把一组数据向某一中心数值靠拢的情形，称为这组数据的集中趋势，为描述数据的集中趋势，可以选择不同的数据代表.如果从数据取值大小的角度描述，可用平均数作为数据代表：如果从数据排列位置的角度描述，可用中位数作为数据代表;如果从不同数据出现次数的角度描述，可用众数作为数据代表.这三个数据代表从不同角度反映数据的集中趋势，它们各有各的作用，分别适合于不同情况的数据分析.

例1 为比较A，B两个玉米品种，将它们分别种植在面积相等的多块试验田中，每块试验田只种一种玉米，下表记录了两种玉米收获后的产量分布情况.表中第一行为单块试验田产量，下面两行分别为A，B两个品种中与第一行产量对应的试验田的块数.

根据表中的数据解答下列问题：

（1）分别求A，B两种玉米单块试验田产量的平均数，并说明其意义;

（2）分别求A.B两种玉米单块试验田产量的中位数，并说明其意义：

（3）分别求A，B两种玉米单块试验田产量的众数，并说明其意义.

解：（1）从表中可知.A种玉米单块试验田产量（单位：kg）为700，750，800，850，900，950的试验田块数分别为4，20，26，20，18 ，12.通过计算加权平均数，得A种玉米单块试验田产量的平均数为XA=832 kg.

同理，B种玉米单块试验田产量的平均数为xB≈ 827 kg.

从计算结果可知，在单块试验田平均产量上A比B高5 kg.

加权平均数与通常的算术平均数本质相同，即n个数之和除以n的结果，只是加权平均数计算起来更简捷.

（2）将A的全部单块试验田产量（共100个）从小到大依次排列，相同的数据重复写，这100个数据中处于正中间位置的是第50个数据800和第51个数据850，这两数的平均数（800+850）÷2=825为A种玉米单块试验田产量的中位数，

将B的全部单块试验田产量（共99个）从小到大依次排列，相同的数据重复写，这99个数据中处于正中间位置的是第50个数据850，它为B种玉米单块试验田产量的中位数.

从计算结果可知，A的数据中小于825的和大于825的各占50个;B的数据中第50个数据850之前和之后的数据各占49个.这说明825 kg和850 kg可以分别作为A，B两种玉米单块试验田产量的中等水平的代表.

中位数可以不是原始数据.排序时既可以从小到大，也可以从大到小，两种排法找出的中位数相同.

（3）A的全部数据（共100个）中，出现次数最多的是800 kg（26次），800 kg即这组数据的众数.

B的全部数据（共99个）中，出现次数最多的是800 kg（25次）和850 kg （25次），800 kg和850 kg都是这组数据的众数.

从计算结果可知，虽然各块试验田中产量不尽相同，但也可能有规律存在，即在一般情形下，A的单块试验田产量是800 kg的可能性较大，B的单块试验田产量是800 kg或850 kg的可能性较大.

可以看出，一组数据的众数可能是一个，也可能不止一个.众数是原始数据中的数据.

平均数是最常用的一个数据代表，它通常能反映一组数据的平均水平.平均数的计算，要用到原始数据中的每一个数据.因此，一组数据中如有极端值（与多数数据相比过大或过小的个别数据）时，极端值可能对平均数影响较大.这种情形下如仍用平均数作为数据代表，往往与多数数据的大小产生较大偏差，不能恰如其分地反映一组数据的中心数值，这时，选择中位数或众数作为数据代表，或更能客观地反映一组数据的中心数值，

例2 下表为某地9月份每天空气中细颗粒物（即PM 2.5）的测定值及相应的天数.

（1）分别求表中数据的平均数、中位数和众数.

（2）所得的平均数能客观反映该地9月份空气中细颗粒物的含量吗？

解：（l）平均数约为34.9 yg/m3，中位数为24μg/m3，众数为24 μg/m3.

（2）观察表中数据不难发现，30天中有29天的测定值都不超过25 μg/m3，它们与平均数差距较大;30天中只有1天的测定值360μLg/m3远高过平均数，这可能是由于一次突发事故造成了空气严重污染.显然，因为有360这个极端值，才使得平均数的值很大.如果以平均数34.9 μg/m3作为数据代表，则不能客观反映该地9月份空气中细颗粒物含量的一般状况.而以中位数或众数24μg/m3作为数据代表，则能较好地反映客观实际.

二、数据的离散程度

“一组数据中各个数据与这组数据的中心数值的偏离程度有多大？”这是数据分析所关注的另一个主要问题，由它能从整体上描述这组数据的聚散状态.在统计学中，把一组数据中各个数据与这组数据的中心数值的偏离程度，称为这组数据的离散程度或离中程度.它反映一組数据大小的波动状态，从而描述了这组数据的稳定性.

方差是表示离散程度的常用数据代表，它的计算方法是，先计算一组数据的平均数，再计算各数据与所得平均数之差的平方和，最后用所得平方和除以这组数据的个数，这个结果被用于反映一组数据与平均数的偏离程度，对数据的变化幅度给予了定量的刻画.

例3 分别计算例1中A.B两组数据的方差，由所得方差你能看出哪种可能性？

解：s2=4 876，s2≈5 061.

从两个方差看，B的略大于A的，即B的数据比A的数据的离散程度略高，也即B的数据起伏略大，而A的数据相对来说略为稳定.

同学们可能会想：为什么计算方差要用各数据与平均数之差的平方和？如果直接把各数据与平均数之差相加岂不更简单？一般情况下，一组数据中可能有些数据比平均数大，有些数据比平均数小.如果直接用它们减平均数，则这些差会有正有负，如果再把这些差相加，就会出现正负相抵，例如，一组数据为2，2，3，3，4，4，其平均数为3，各数据与平均数之差分别为一1，-1，0，0，1，1.这些差之和为0.但这并不意味着这组数据都是紧靠平均数的.使用各数据与平均数之差的平方和，则利用了平方的非负性，防止做加法时出现正负相抵而隐藏了相关数据对平均数的偏离.方差名称中的“方”正是“平方”的简称.

你也许会问：为什么不用差的绝对值，而要用差的平方来分析离散程度呢？直接用绝对值不是也可以避免出现负数吗？不使用绝对值，是因为取绝对值在运算上要考虑差的正负，取差的平方则不需要考虑差的符号，而且只要四则运算即可获得避免正负相抵的效果.所以人们选择用差的平方来计算方差.观察下图，图1中数据的方差应大于图2中数据的方差，这一结论可通过测量距离或运用方差公式计算来证明.