乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

表示二者关系的“相关系数”

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



像这样,关注  2  种以上数据之间的关联程度,就可能获得仅从一种数据中绝对无法得到的信息。换句话说,就是将视野从一维的数据,扩大为关注  2  个维度,有意识地转换思路和视点。

为了把握  2  种数据之间的关联,首先需要确认它们是否密切相关。

“相关系数”可以表示相关程度,计算相关系数的方法叫作“相关分析”。相关系数的值介于-1  和+1  之间(图  3-1)。

图  3-1  相关系数

相关系数越接近  1,正相关的程度越高。也就是说,一方数据增加,另一方数据也会随之增加。二者完全成比例(如果一方增至  2  倍,另一方也随之变为  2  倍)时的相关系数最大,是  1。相关系数为  0,表示两个数据没有任何关联,互相独立。实际业务中使用的第一手数据,一般都不是  0  或者  1  所表示的完全不相关或者完全成比例相关,而是介于二者之间。



Excel  的小妙招


那么,相关系数是什么数值时,可以判断为“相关”呢?判断相关系数的大小并无一定之规,一般  0.7  以上可以视为“高度(正)相关”。0.7  并不是一个严格的标准,现实中根据不同的分析目的和所需准确度,有时  0.5  以上即可视为相关。

同样,当相关系数为负数时,两种数据则为“负相关”。负相关只是数据的变化方向不同,原理与正相关一样。也就是说,如果一方数据增加,另一方数据则会随之减少。

以下为相关分析的具体事例。例如,在根据预计来店人数来决定营销费用的情况下,来店人数与营销费用之间正相关的程度越高,营销费用的效果越好。投入的营销费用越多,来店人数就增加越多。但如果二者之间没有足够的正相关关系,营销费用就很有可能白白浪费。图  3-2  为运用  Excel  函数计算相关系数的例子。

使用  CORREL  函数可以计算相关系数。在“=CORREL”后面的括号中指定两种数据的范围,并用逗号隔开,即可立即得出相关系数。在图  3-2  的例子中,相关系数为  0.84,可知二者高度相关。

图  3-2  来店人数与营销费用的变化

作为参考,我们再看运用这些数据制成的散点图(图  3-3)。纵轴为来店人数,横轴为营销费用。由于具有  0.84  的高度相关,纵轴会横轴的增加而增加,从直观上也可以确认到向右上方上升的趋势。

图  3-3  营销费用与来店人数相关

如果两个数据不相关,散点图就会呈现出不规则分布。因此除了相关系数之外,用散点图从直观上展现两种数据之间的关系,有时也可以发挥重要的作用。尤其对下面  3  种情形来说,散点图会很有用。

①能够发现明显的离群值(出于某种原因,明显偏离其他数据的数据)。离群值可能会产生影响,导致整体的相关系数变低。如果能够合理去除离群值,那么其他数据的相关系数可能会有不同。

②相关系数能够体现两种数据之间的比例关系(线性关系),但并非所有数据之间都是比例关系,也可能是其他类型(曲线等)关系。这些其他类型的关系可以不依赖相关系数,从散点图中看到。

③借助散点图,对相关分析、相关系数一无所知的人也可以理解分析的结果。

并非所有情况都需要制作散点图。可以先通过  CORREL  函数计算出相关系数,然后再针对重要内容用散点图加以确认。