乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

平均值不能代表总体

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



回忆学生时代,得知自己的考试成绩高于班级平均分时,大家是否会觉得“排在中等以上,还不错”?不过,如果您对这句话没有感到任何疑问,就需要注意了。此外,如果听到某国的平均寿命是多少岁,就认为这个国家的人都是在平均寿命前后去世,这样的人也同样需要注意。

图  2-8  是一个  40  人班级的考试成绩分布情况。其平均分为  51  分,但位于所有成绩正中间(即第  20  名与第  21  名之间)的却是  57.5  分。也就是说,得了  55  分的人虽然高于平均分,却并未排进班级的“前一半”。请注意,图  2-7  以平均值为中心,数据个数逐渐减少,而图  2-8  的数据却呈现出截然不同的分布方式。

图  2-8  考试成绩的分布

在图  2-7  的情况(往往是很多人所想象的情形)下,可以说平均值就是代表值。但在图  2-8  中,平均值周围并没有集中很多数据。因此,按照数值大小顺序,位于中间的数值(中位数)也偏离了平均值。这种情况下,就不能把平均值看作代表数据的值。

之所以产生这种现象,是因为平均值会受到离群值的影响。而且,数据波动越大,离群值就越多。其结果就是,“平均值未必是代表值”的可能性更大。例如平均寿命也是一样,假设某个国家  5  岁以下的婴幼儿死亡率较高,那么除非有很多高于平均寿命的长寿者,否则计算出的平均寿命就会偏低。寿命集中分布在低年龄段和高年龄段两个区域,平均寿命处于其中的某个位置。这种情形下,在平均寿命前后去世的人数就相对较少。

再看一个比较极端的例子。假设对  100  个人进行问卷调查,其结果为有  50  人选择“1.极不赞同”的,而其余  50  人则全部选择“5.极为赞同”(图  2-9)。

图  2-9  对问卷调查的回答

这种情况下的平均值是多少呢?平均值应该是  3。然而却没有一个受访者选择了“3.  既不赞同也不反对”。那么这里的平均值就没有任何意义,反而还可能会掩盖人们的意见集中在  1  和  5  的事实。平均值的便利之处在于可以不用处理全部数据,只关注由整体得出的一个数值即可,但其缺点是牺牲了原始数据。这是一个很大的陷阱。

我在日产工作时养成了一个习惯,对只用到平均值的提案抱有怀疑的态度。有些人只根据平均值便断定“数值大,很好”“数值太小,不行”,这样的评价过于肤浅,其背后可能隐藏着更多信息。假如没有认识到这一点,我一定会错过很多重要的信息。

那么,有没有一种方法,可以大致判断能否将平均值视为代表值呢?根据直方图的视觉效果,可以确认到数据的分布方式和平均值的位置。但在实际工作中,不可能每次都用这个方法来确认。