乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

不要随便编故事

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



相关分析既有效又简单,稍做尝试即可得出结论,非常适合实际应用。但另一方面,如果理解或使用方法不当,相关分析也有可能得出错误的结论。如果能在分析过程中发现这些错误倒也无妨,但这一点往往很难做到。实际上,有很多情况必须依靠分析者本人的细心、知识或经验才能发现。没有一种方法可以保证“这样做绝对没问题”。

因此,我们在学习分析方法的同时,还需要了解它的注意事项。随时有意识地进行检查,可以大大提高数据分析的质量。那么,都有哪些陷阱呢?以下介绍  4  种常见的情况。



陷井  1 因果关系


得知“具有密切关系”之后,人们常会下意识地把某些故事套在上面。其中最容易接受的故事就是因果关系。将信息碎片随意拼接起来,编造出若有其事的故事(因果关系),然后再用它来“说服”自己,这种情况在日常生活中十分常见。进行客观分析时,尤其需要注意这一点。

例如,“媒体曝光度”与“咨询件数”之间似乎具有高度相关。那么是否就可以得出结论,认为“进一步增加媒体曝光,就能增加销售额”呢?答案是“也许是,也许不是”(图  3-15)。

也许是由于“咨询件数”的增加,引起同行业的关注,才导致了“媒体曝光度”增加这一结果。

图  3-15  媒体曝光度与咨询件数之间是否具有直接关联?

相关关系并不一定就是因果关系,这一点非常重要。是否给相关关系套上因果关系的故事,是分析者个人判断决定的。所以要清楚,这并不是分析结果所展现的内容。根据同样的分析结果,却有可能得出与原本的因果关系截然相反的解释。

例如,二氧化碳浓度与气温变化之间确实存在相关关系。人们一般认为,“因为二氧化碳增加,导致地球变暖”,但其实也有论文提出截然相反的观点,认为是因为气温升高,使海水中的二氧化碳被排到大气中,导致二氧化碳浓度上升。在这个例子中,对于哪个是原因,哪个是结果,人们做出了不同的解释。仅靠相关分析,无法明确其因果关系。

作为检验因果关系的方法之一,可以考察  2  种数据发生变化的时期(顺序)。因果关系应该是原因变化在先,结果随后发生变化。



陷井  2 疑似相关


任何情形都可以通过计算得出相关分析的结果(相关系数),但这个结果未必都是由“直接”相关关系导致的。尤其是在复杂的商务世界中,只用一对一的直接关系就能解释的情况其实很少。如果仅凭计算结果创造故事,很可能会得出有悖常识的结论。

例如,假设“顾客满意度”与“销售额”高度相关。那么是否就能直接得出“改善服务,提高顾客满意度,就能进一步提高销售额”的结论呢?对此,答案依然是“也许是,也许不是”。仅凭相关分析的结果无法得出真正答案。如图  3-16  所示,这种情况要求分析者考虑是否存在“第  3  个要素”。

图  3-16  顾客满意度与销售额之间可能存在“第  3  个要素”

在这个例子中,如果还存在分析中没有体现出来的“减价”,就不能否定减价导致销售额和顾客满意度同时提高的可能性。顾客满意度与销售额同时增加,数字上得到的结果显示两者高度相关,但我们却不能就此认定二者有直接关系(例如因果关系)。在这种情况下不能把思考停留在眼前的数据上,还要随时提出多种假设,分别考察它们之间的相关关系,才能从某种程度上降低风险。

如何解释分析结果,需要分析者亲自判断。扩大解释的选项范围,可以避免结论受到狭隘思路的限制。



陷井  3 数据的范围


所有的数据分析都有一个共同点,就是分析所用的数据范围不同,会对结果带来很大差异。图  3-17  显示了某保险产品销售专柜员工“接受培训的次数”与“服务态度在顾客问卷调查中的得分(服务态度得分)”的关系。如果一股脑地计算所有数据的相关系数,可以得到  0.40  这样一个并不算高的数值。

不过我们并不能据此得出“接受培训次数的多少对顾客满意度没有贡献,因此没有意义”的结论。因为如果假设“只有达到一定次数之后,培训效果才会显现”,那么就有可能在散点图上发现前后出现变化的点。图  3-17  的例子很明显,以接受培训  20  次左右为界,服务态度的得分趋势开始发生变化。也就是说,需要对分界点的前后加以区分,重新进行相关分析。

图  3-17  培训的效果检验

单独计算接受  20  次培训以后的相关系数,可以得到接近  1  的高度相关的数值。这个“选择分析范围”的工作也要由分析者来做。分析者能否针对数据范围提出适当的假设,有可能会导致截然相反的结论。

除了最初就知道应该着眼于何处的情况,一般情况下,可以用散点图将数据的相关关系直观地展现出来,然后再逐一探索应该从何处着眼,这也是一个关键。



陷井  4 离群值


还有一个与其他分析方法共通的注意事项,即对“离群值”的处理。离群值指由于某种原因,与其他数据差距比较大的数据。分析对象中是否包含离群值,会使相关系数产生很大差异。图  3-18  是从  25  家经销商收集的汽车分期付款销售数量。从整体上可以看出,随着贷款利率(横轴)的升高,分期付款销售数量(纵轴)呈下降趋势。

图  3-18  分期付款销售业绩

在右上方,有一家店铺并不符合这个倾向。它就是离群值。连同这个离群值一起计算,得到的相关系数为-0.44,并不太高。但如果剔除离群值,相关系数就会猛增为-0.74。

那么是否应该把离群值全都剔除在外呢?答案是“原则上,没有明确理由是不可以的”。

如果可以随意删除数据,就有可能出现分析者操纵分析结果,导致分析丧失客观性和可信度的情况。所以,发现离群值时,首先要调查这个数据为什么会出现偏离。在此基础上,如果能找到合适的理由,则可以将其从对象中剔除,再进行分析。这个事例中,由于只有右上方的经销商实施了极为优惠的首付政策,所以分期付款销售数量的增长与贷款利率无关。

收集此类无法从数据中获知的信息,并进行判断,也是分析者的重要工作之一。像图  3-18  一样,用散点图加以直观展现,会更容易发现离群值。

综上所述,与其他方法相比,相关分析有很多需要分析者多加留意、开动脑筋的地方,这与它能够用于各种问题和情况的较高通用性互为表里。虽然分析者的技术和直觉可能永远也达不到满分的水平,但随着分析经验的增加,其能力自然也会不断提高。