乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

标准差为什么“用不上”

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



因此,很多人因为“统计书上的内容”与“自己运用”之间存在明显的距离(还有很多情况下,二者之间的距离甚至大得已经感觉不到距离),而放弃使用标准差。

这就是人们常会觉得“理论上好像明白,但不会实际运用”标准差这个工具的原因。

标准差的计算公式如图  2-17  所示。为了去除正负影响,先把各个数据的值与平均值的差平方后相加,除以数据个数之后,再开方。简而言之,就是用一个数值来表示各数据与平均值距离的和。

图  2-17  标准差的计算公式

用计算器计算标准差很麻烦,可以使用  Excel  函数立即得到结果(图  2-18)。此外,不同版本的  Excel  中还有很多类似的函数。

图  2-18  Excel  中的标准差函数定义

当然,只要不是严谨的学术领域,我们在现实工作中也可以不考虑其前提条件,而只是粗略地比较数据的波动程度。但重要的是,如果我们在自己完全不了解(或者是忽略了)原本的制约条件下得出结果,那么在运用该结果时应该知道它并不是严密的。

我在日产工作时曾经制作了一个系统,用来管理遍布世界各地的  120  个国家或地区的销售代理店业绩。在数十项评价指标当中,有一些无法只靠绝对值评价好坏,也有的指标需要在所有代理店中进行相对评价。当时我采用的方法是,将平均值增减  1  个标准差的范围定义为“标准”范围,关注处于该范围之外的数据(代理店)。如果随便设定一个标准,据此来评价好坏的话,人们有可能会质疑评价本身是否合理,但如果能够说明客观标准是如何设定的,就不太会出现类似问题。

作为标准差的应用事例之一,再来介绍一下学校里常会用到的偏差值。步入社会以后,除非在教育领域工作,否则可能很少有人会用到偏差值,但这里还是做一简单介绍,来加深大家对标准差的理解(图  2-19)。

图  2-19  偏差值的计算公式

例如,如果有人在平均分为  50  分的考试中得了  80  分,虽然知道这个分数“高于平均分”,但却无法得知这个人在整体中的位置。80  分与平均值之间的  30  分差距是“大”还是“小”,取决于所有分数的分布情况。

如果得分超过  80  分,甚至更高的人数很多(即标准差较大),就不能说  80  分是一个相对优秀的结果。而如果大部分人的分数都在平均分  50  分前后(即标准差较小),则可以说  80  分是“非常优秀”的成绩。偏差值就是用来表示“成绩得分的相对位置”的指标。

那么,有没有什么办法可以将不太好用的标准差运用到实际工作中呢?这里介绍两种能够轻松掌握数据分布的方法。

一种方法是用柱状图来展现数据的分布情况,可从视觉上直接确认。在前文提及的直方图中,纵轴表示数据的个数(频数、频率),横轴表示数据大小的间隔(区间)。经常有人会问间隔的“最佳幅度”是多少,这个问题并没有标准答案。在实际业务中,一般由分析者根据目的或者是否便于理解来自行决定。

比较两个直方图,可以看出哪一边的数据波动更大(或更小)。使用直方图将全部数据直观体现出来,可以帮助人们把握数据分布的形状、特定范围内的数据个数等只看标准差所无法获得的信息。

与在  Excel  中直接查看数据相比,做成直方图可以更轻松地把握实际情况。直方图只是从直观上把握数据,所以不必在意计算标准差的前提以及评价标准差的方法等比较难懂的细节问题。因此,向其他人展示或者进行说明时,直方图的魅力之一就是可以作为更便于理解的信息发挥作用。

直方图也是我在日产工作时经常用到的方法之一。如果不了解对方的专业水平或关注点所在,或者要向来自不同国籍或部门的高管进行展示时,这是一种更为“保险”的方法。虽然做直方图需要使用大量数据,但其优势是任何人都能很快理解。当然,这种方法在数据的特征和结果较为明显时效果会更好。而对于很难从直观上判断的情况,使用直方图反而会招致混乱。