了解“中位数”
这种情况下,还有一种简便方法,即“中位数”。中位数是指把所有数据按从大到小(或从小到大)的顺序进行排列时,排在最中间的数据。顾名思义,中位数就是位于中间位置的数据。有奇数个数据时,中位数是正中间的数据,有偶数个数据时,中位数则是中间两个数据的平均值。
例如,如果有 4 个数据(0、3、6、9),那么中位数就是 3 与 6 的平均值 4.5。中位数可以用 Excel 函数直接得出来,记住这个函数和平均值的函数会很方便。
•平均值:=AVERAGE(在此处指定数据范围)
•中位数:=MEDIAN(在此处指定数据范围)
如果以平均值为中心,所有数据都大致均等地分布在其左右两侧,那么中位数的值必然会接近平均值。相反,如果受离群值的影响,平均值在所有数据中的位置较偏,那么中位数与平均值之间就会出现较大差异(也有个别情况例外)。我们也可以在这种情况下再用直方图等查看平均值为什么会出现偏离。
图 2-10 为平均值和中位数的特征一览表。详细了解平均值和中间值的各自特征,并根据需要组合运用,可以避免落入滥用平均值的陷阱。
图 2-10 平均值与中位数的特征
“油炸豆腐”和“天妇罗面渣”,哪个更好吃
根据平均值进行比较,不仅要注意原始数据,还需要注意“数据构成”的差异。
例如,假设您是一家荞麦面馆的老板。为了了解客人喜欢的配菜是“油炸豆腐”还是“天妇罗面渣”,分别向 200 位客人做了问卷调查,请他们打分(满分 100 分)。其结果如图 2-11 所示。
图 2-11 对油炸豆腐和天妇罗面渣的评价
大概很多人会认为:油炸豆腐的(总平均分)高出 6 分多,那就多进些油炸豆腐来卖吧。
不过在店里打工的学生说:“我们店里既有乌冬面,也有荞麦面,所以我对哪一种更受欢迎做了统计”,并拿来了结果。如图 2-12 所示,他分别统计了乌冬面和荞麦面的平均分。
图 2-12 对乌冬面与荞麦面的评价
令人吃惊的是,无论乌冬面还是荞麦面,都是天妇罗面渣的平均分更高。他的表格没有任何计算错误或数据选取错误,只是正常计算了平均值,但结果却与图 2-11 截然相反。如果没有这名学生提出疑问,您可能会根据最初的结论,判断是油炸豆腐更受欢迎。
这种矛盾的现象被称为“辛普森悖论”,可能很多人都不太了解。有些情况下,考察数据整体和考察不同部分,会得到相反的结论。如果您是店老板,对这种情况会做何判断呢?