平均值不能代表总体
回忆学生时代,得知自己的考试成绩高于班级平均分时,大家是否会觉得“排在中等以上,还不错”?不过,如果您对这句话没有感到任何疑问,就需要注意了。此外,如果听到某国的平均寿命是多少岁,就认为这个国家的人都是在平均寿命前后去世,这样的人也同样需要注意。
图 2-8 是一个 40 人班级的考试成绩分布情况。其平均分为 51 分,但位于所有成绩正中间(即第 20 名与第 21 名之间)的却是 57.5 分。也就是说,得了 55 分的人虽然高于平均分,却并未排进班级的“前一半”。请注意,图 2-7 以平均值为中心,数据个数逐渐减少,而图 2-8 的数据却呈现出截然不同的分布方式。
图 2-8 考试成绩的分布
在图 2-7 的情况(往往是很多人所想象的情形)下,可以说平均值就是代表值。但在图 2-8 中,平均值周围并没有集中很多数据。因此,按照数值大小顺序,位于中间的数值(中位数)也偏离了平均值。这种情况下,就不能把平均值看作代表数据的值。
之所以产生这种现象,是因为平均值会受到离群值的影响。而且,数据波动越大,离群值就越多。其结果就是,“平均值未必是代表值”的可能性更大。例如平均寿命也是一样,假设某个国家 5 岁以下的婴幼儿死亡率较高,那么除非有很多高于平均寿命的长寿者,否则计算出的平均寿命就会偏低。寿命集中分布在低年龄段和高年龄段两个区域,平均寿命处于其中的某个位置。这种情形下,在平均寿命前后去世的人数就相对较少。
再看一个比较极端的例子。假设对 100 个人进行问卷调查,其结果为有 50 人选择“1.极不赞同”的,而其余 50 人则全部选择“5.极为赞同”(图 2-9)。
图 2-9 对问卷调查的回答
这种情况下的平均值是多少呢?平均值应该是 3。然而却没有一个受访者选择了“3. 既不赞同也不反对”。那么这里的平均值就没有任何意义,反而还可能会掩盖人们的意见集中在 1 和 5 的事实。平均值的便利之处在于可以不用处理全部数据,只关注由整体得出的一个数值即可,但其缺点是牺牲了原始数据。这是一个很大的陷阱。
我在日产工作时养成了一个习惯,对只用到平均值的提案抱有怀疑的态度。有些人只根据平均值便断定“数值大,很好”“数值太小,不行”,这样的评价过于肤浅,其背后可能隐藏着更多信息。假如没有认识到这一点,我一定会错过很多重要的信息。
那么,有没有一种方法,可以大致判断能否将平均值视为代表值呢?根据直方图的视觉效果,可以确认到数据的分布方式和平均值的位置。但在实际工作中,不可能每次都用这个方法来确认。