平均值不能代表总体

回忆学生时代，得知自己的考试成绩高于班级平均分时，大家是否会觉得“排在中等以上，还不错”？不过，如果您对这句话没有感到任何疑问，就需要注意了。此外，如果听到某国的平均寿命是多少岁，就认为这个国家的人都是在平均寿命前后去世，这样的人也同样需要注意。

图  2-8  是一个  40  人班级的考试成绩分布情况。其平均分为  51  分，但位于所有成绩正中间（即第  20  名与第  21  名之间）的却是  57.5  分。也就是说，得了  55  分的人虽然高于平均分，却并未排进班级的“前一半”。请注意，图  2-7  以平均值为中心，数据个数逐渐减少，而图  2-8  的数据却呈现出截然不同的分布方式。

图  2-8  考试成绩的分布

在图  2-7  的情况（往往是很多人所想象的情形）下，可以说平均值就是代表值。但在图  2-8  中，平均值周围并没有集中很多数据。因此，按照数值大小顺序，位于中间的数值（中位数）也偏离了平均值。这种情况下，就不能把平均值看作代表数据的值。

之所以产生这种现象，是因为平均值会受到离群值的影响。而且，数据波动越大，离群值就越多。其结果就是，“平均值未必是代表值”的可能性更大。例如平均寿命也是一样，假设某个国家  5  岁以下的婴幼儿死亡率较高，那么除非有很多高于平均寿命的长寿者，否则计算出的平均寿命就会偏低。寿命集中分布在低年龄段和高年龄段两个区域，平均寿命处于其中的某个位置。这种情形下，在平均寿命前后去世的人数就相对较少。

再看一个比较极端的例子。假设对  100  个人进行问卷调查，其结果为有  50  人选择“1.极不赞同”的,而其余  50  人则全部选择“5.极为赞同”（图  2-9）。

图  2-9  对问卷调查的回答

这种情况下的平均值是多少呢？平均值应该是  3。然而却没有一个受访者选择了“3.  既不赞同也不反对”。那么这里的平均值就没有任何意义，反而还可能会掩盖人们的意见集中在  1  和  5  的事实。平均值的便利之处在于可以不用处理全部数据，只关注由整体得出的一个数值即可，但其缺点是牺牲了原始数据。这是一个很大的陷阱。

我在日产工作时养成了一个习惯，对只用到平均值的提案抱有怀疑的态度。有些人只根据平均值便断定“数值大，很好”“数值太小，不行”，这样的评价过于肤浅，其背后可能隐藏着更多信息。假如没有认识到这一点，我一定会错过很多重要的信息。

那么，有没有一种方法，可以大致判断能否将平均值视为代表值呢？根据直方图的视觉效果，可以确认到数据的分布方式和平均值的位置。但在实际工作中，不可能每次都用这个方法来确认。