注意事项及应用事例
运用一元回归分析要注意以下两个问题。
一个是“数据之间必须具有单纯的比例关系”。与相关分析一样,一元回归分析的大前提是 2 个数据之间存在直线比例关系。情况或关系越复杂,就越不符合严密的线性关系。这种情况就不适合套用y =ax +b 。
Excel 也有计算曲线回归方程的功能。从理论上讲,我们可以对两种方式取得的R 2 值进行比较,选择R 2 值较高的方式。但考虑到在实际业务中的运用,即使R 2 值略低,但只要高于一定标准(例如 0.25 或 0.49),还是建议使用一元回归分析。
因为一元回归分析除了计算简单之外,在说明分析过程时,也更容易得到非专业人士的理解。如果对方无法理解分析过程或所使用的理论,一般也就无法接受由此得出的结论,最终就无法达成共识。实际工作中的难点其实就在这里。
还有一个需注意的问题,即“离群值以及不同的数据选择范围,会导致分析结果产生很大不同”。这一点也与相关分析的注意事项一样。是否采纳明显偏离其他数据的“离群值”,如何设定数据的范围(例如是过去半年期间的数据,还是一年期间的数据),分析者的不同判断会导致分析结果出现很大差异。也就是说,分析者每一个小小的决定都能操纵分析的结果。
当然,分析者必须要对离群值及数据范围等的处理方法加以说明。把手边所有的数据都用上,边做边看能得到什么结果的做法,无论准确度还是可靠性都无法令人信服。
一元回归分析是一种极其卓越的方法,只用 10 秒钟的时间就可以使用 Excel 计算出数据间的关系(回归方程或回归直线)。但工作中进行数据分析的最终目标并不是用数字来表示数据关系。只有数据关系得到了充分的运用,分析才具有价值。
那么,该如何运用呢?几乎所有的数据分析教科书都没有涉及。这也是很多人在实际工作中最大的烦恼。不同的业务、行业或者商业形态,具有无数种运用数据关系的模式。希望下面介绍的 3 个事例能为大家带来启发,成为大家在工作中应用数据分析时的参考。
事例 1 对比成本和收益
“把有限的资源(时间、成本)投入到哪里、投入多少才能发挥最大效率”“现行的成本使用方式是否真能带来预期的收益”……尽管我们常有这些疑问,一般却不会去检验,而是任由资源浪费。那么接下来,我们就尽量具体地考虑一下,考察哪些关系,才能用数字体现成本与收益的关系。
计算“成本”和“收益”的数值关系,需要根据问题内容,确定具体是哪些指标(数据)代表成本与收益,否则就不知道应该使用哪些数据。首先看成本,我们需要定义它具体指哪些内容。例如是只有广告宣传费,还是也包括相关的人工费在内等。
对于收益,同样也需要明确此处所说的收益是用哪些数据衡量的。例如,除了常用的“销售额”“销售额增长率”之外,还可以考虑“来店人数”“咨询件数”等指标。
哪项指标最适合用来分析,取决于它能否充分体现出分析的目的,而且除了要考虑这种数据是否能收集到,还有一个前提是它与成本之间必须存在相关关系。图 4-7 以“广告宣传费”作为成本,以“来店人数”作为收益,对 A 店和 B 店的成本和收益进行了比较。
如果不用数值表示,而是直接站在店里观察来店的人数,会怎样呢?假设在使用了 60 万日元广告宣传费的那一周,A 店观测到的来店人数约为 500 人,B 店约为 750 人。B 店的绝对数值更大,似乎可以得出“B 店收益更高”的结论。只看来店人数多少的话确实如此,但是因为广告宣传而来店的人数和并非因为广告宣传而来店的人数是混在一起的,仅靠这一点并不能得知广告宣传(费)带来的真正收益。
A 店的回归方程如下:
来店人数(1 周的人数)=3.73×广告宣传费(万日元)+273.6
图 4-7 广告宣传费与来店人数的关系
请大家注意,该方程的斜率为 3.73,这意味着广告宣传费每增加 1 万日元,来店人数可以增加 3.73 人。这个数值代表 1 万日元能够带来多大的收益。同样可知,B 店每增加 1 万日元的广告宣传费,来店人数会增加 2.86 人。同样是 1 万日元,用在哪一家店铺的效果更好(即成本带来的收益更高)呢?比较斜率,3.73 大于 2.86,因此 A 店的收益更高。
这个思维方式在前文“购买数量与公布视频的频率”的事例中曾经介绍过,它在锁定问题原因时也可以发挥作用。针对某个问题,如果存在多个具有相关关系的原因,就需要讨论这些原因之间的优先顺序。其中一个做法是从“关联更为密切”的角度,比较哪个原因与问题的相关程度更高。
另一方面,根据回归分析的结果,可以得知某个原因能够对问题造成“多大程度”的影响。回归方程的斜率体现了改善解释变量的成本,与问题由此得到改进的关系。因此可以根据斜率,从“成本和收益”的角度决定优先顺序。