第4章 制定对策,要依据“方程式”
前面介绍了如何确认 2 个数据之间的相关程度并锁定原因。相关分析具有简单实用的优点,即使数据单位不同[例如“人”和“钱(日元)”等],也可以进行分析。但在实际工作中,要想充分发挥数据分析的作用,获得对方的认可,还需更进一步的工作。
例如,相关分析的结果表明,“在网上公布视频的频率”与“购买数量”高度相关(图 4-1)。根据数据得出这一发现虽然有意义,但设想一下,如果把“高度相关”作为结论汇报给上司,他会做出怎样的反应呢?
上司一定会问:“我知道它们高度相关了。那么,公布视频的频率对购买数量到底有多大影响呢?”了解相关程度的大小,对锁定原因非常有效,但只靠相关分析却无法得知这个原因会对目标产生多大影响。
虽然找到了高度相关的原因,却仍然不知道要改善到什么程度才能对目标带来变化。而对掌管业务整体运营的人来说,这是一个非常重要的问题。
图 4-1 公布视频的频率与购买数量的关系
此外,上司可能还会问及措施或计划:“那么具体要采取哪些措施,做到何种程度呢?”也就是说,相关分析归根结底还只是锁定原因,而无法规划下一步的措施。
现实工作中,人们需要根据数值采取行动。“为什么要进行分析”“计划根据分析结果做什么”,这些视点和思维方式,对实际业务中的数据分析工作具有极为重要的意义。
因此,继相关分析之后,还需要“一元回归分析”登场。一元回归分析可以将 2 个数据之间的相关关系表现为具体公式。前文的例子就可以通过一元回归分析计算出“在网络公布视频的频率”为多少时,“购买数量”会达到多少。
10 秒钟完成一元回归分析
例如,如图 4-2 所示,假设有 30 个星期内每周公布视频的频率和购买数量的数据。首先使用 CORREL 函数确认二者之间的关联,得出相关系数为 0.80,属于高度相关。接下来,可以按照以下步骤,得出“公布视频的频率”与“购买数量”的数值关系。
图 4-2 30 个星期内每周公布视频的频率和购买数量的数据
(1)用散点图展现 2 个数据间的关系
绘制散点图时,一般需要注意确认将哪个数据设为纵轴(图 4-3)。除了清晰明了、简单易懂之外,散点图还必须保证在之后的数值化过程中,用纵轴表示“输出(结果或目的)”,用横轴表示“输入(能够控制的变量)”。散点图的原则是通过控制横轴的变量,引起纵轴变化。在 Excel 中将纵轴的数据放在右侧,横轴的数据放在左侧,就可以得到想要的散点图。
图 4-3 公布视频的频率与购买数量的散点图
(2)用散点图求回归方程
选择散点图上任意一个点,点击鼠标右键,在菜单中选择“添加趋势线”。然后在图 4-4 所示的页面中勾选最下面的“显示公式”和“显示R 平方值”。如图 4-5 所示,散点图上就会出现一条大致从数据中心通过的直线,以及体现纵轴与横轴数值关系的公式。
图 4-4 勾选在图表中显示公式和R 平方值
依据具有相关关系的数据,上述操作可以在 10 秒钟之内完成。这个方法与相关分析一样,能在实际工作中发挥巨大优势。在实际工作中,我们收集到的数据,并不一定都能预测出结果,或者说可能大多数都无法预测结果,所以需要在较短时间里多次试错。能在 10 秒钟之内完成一次分析,也就意味着可以在有限的时间里进行多次检验。
图 4-5 散点图上的回归方程和R 平方值(R 2 )
那么,应该如何解释这个结果呢?散点图上的公式为:
y =3.330 3x +84.911
在这个例子中,该公式可以理解为:
购买数量(个/周)=3.33×公布视频的频率(次/周)+84.9
可能很多人都发现了,我们曾经在中学数学课上学过这个公式,表示直线y =ax +b (a 是斜率,b 是常数)。这条直线就是图 4-5 中的直线。一元回归分析公式用y =ax +b 的形式来表现这条直线,这就是回归方程(由此画出的直线叫作回归直线)。
回归直线作为零散分布的原始数据的代表,是距离各点(数据)之和最小的直线。不过除非所有数据都排列在同一条直线上,否则回归方程与各点之间就一定会有偏差。就这一点而言,回归方程无法完美地体现原始数据。
这样一来,就还需要另一个指标,来衡量回归方程(作为原始数据的代表)的可信度。这个指标就是散点图里写在回归方程下面的R 2 。
让我们再来看看相关分析。如果原始数据完全相关(相关系数=1),那么所有的点都会排列在一条直线上;但如果不是完全相关,相关系数就会随着数据对完全相关(直线)的偏离,从 1 开始逐渐减小。其实,越偏离直线,指标越小于 1 的现象也适用于一元回归。数据偏离越远,回归直线就越不能准确地代表原始数据,R 2 表示数据的偏离程度。