乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

第4章 制定对策,要依据“方程式”

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



前面介绍了如何确认  2  个数据之间的相关程度并锁定原因。相关分析具有简单实用的优点,即使数据单位不同[例如“人”和“钱(日元)”等],也可以进行分析。但在实际工作中,要想充分发挥数据分析的作用,获得对方的认可,还需更进一步的工作。

例如,相关分析的结果表明,“在网上公布视频的频率”与“购买数量”高度相关(图  4-1)。根据数据得出这一发现虽然有意义,但设想一下,如果把“高度相关”作为结论汇报给上司,他会做出怎样的反应呢?

上司一定会问:“我知道它们高度相关了。那么,公布视频的频率对购买数量到底有多大影响呢?”了解相关程度的大小,对锁定原因非常有效,但只靠相关分析却无法得知这个原因会对目标产生多大影响。

虽然找到了高度相关的原因,却仍然不知道要改善到什么程度才能对目标带来变化。而对掌管业务整体运营的人来说,这是一个非常重要的问题。

图  4-1  公布视频的频率与购买数量的关系

此外,上司可能还会问及措施或计划:“那么具体要采取哪些措施,做到何种程度呢?”也就是说,相关分析归根结底还只是锁定原因,而无法规划下一步的措施。

现实工作中,人们需要根据数值采取行动。“为什么要进行分析”“计划根据分析结果做什么”,这些视点和思维方式,对实际业务中的数据分析工作具有极为重要的意义。

因此,继相关分析之后,还需要“一元回归分析”登场。一元回归分析可以将  2  个数据之间的相关关系表现为具体公式。前文的例子就可以通过一元回归分析计算出“在网络公布视频的频率”为多少时,“购买数量”会达到多少。



10  秒钟完成一元回归分析


例如,如图  4-2  所示,假设有  30  个星期内每周公布视频的频率和购买数量的数据。首先使用  CORREL  函数确认二者之间的关联,得出相关系数为  0.80,属于高度相关。接下来,可以按照以下步骤,得出“公布视频的频率”与“购买数量”的数值关系。

图  4-2  30  个星期内每周公布视频的频率和购买数量的数据

(1)用散点图展现  2  个数据间的关系

绘制散点图时,一般需要注意确认将哪个数据设为纵轴(图  4-3)。除了清晰明了、简单易懂之外,散点图还必须保证在之后的数值化过程中,用纵轴表示“输出(结果或目的)”,用横轴表示“输入(能够控制的变量)”。散点图的原则是通过控制横轴的变量,引起纵轴变化。在  Excel  中将纵轴的数据放在右侧,横轴的数据放在左侧,就可以得到想要的散点图。

图  4-3  公布视频的频率与购买数量的散点图

(2)用散点图求回归方程

选择散点图上任意一个点,点击鼠标右键,在菜单中选择“添加趋势线”。然后在图  4-4  所示的页面中勾选最下面的“显示公式”和“显示R  平方值”。如图  4-5  所示,散点图上就会出现一条大致从数据中心通过的直线,以及体现纵轴与横轴数值关系的公式。

图  4-4  勾选在图表中显示公式和R  平方值

依据具有相关关系的数据,上述操作可以在  10  秒钟之内完成。这个方法与相关分析一样,能在实际工作中发挥巨大优势。在实际工作中,我们收集到的数据,并不一定都能预测出结果,或者说可能大多数都无法预测结果,所以需要在较短时间里多次试错。能在  10  秒钟之内完成一次分析,也就意味着可以在有限的时间里进行多次检验。

图  4-5  散点图上的回归方程和R  平方值(R  2  )

那么,应该如何解释这个结果呢?散点图上的公式为:

y  =3.330  3x  +84.911

在这个例子中,该公式可以理解为:

购买数量(个/周)=3.33×公布视频的频率(次/周)+84.9

可能很多人都发现了,我们曾经在中学数学课上学过这个公式,表示直线y  =ax  +b  (a  是斜率,b  是常数)。这条直线就是图  4-5  中的直线。一元回归分析公式用y  =ax  +b  的形式来表现这条直线,这就是回归方程(由此画出的直线叫作回归直线)。

回归直线作为零散分布的原始数据的代表,是距离各点(数据)之和最小的直线。不过除非所有数据都排列在同一条直线上,否则回归方程与各点之间就一定会有偏差。就这一点而言,回归方程无法完美地体现原始数据。

这样一来,就还需要另一个指标,来衡量回归方程(作为原始数据的代表)的可信度。这个指标就是散点图里写在回归方程下面的R  2  。

让我们再来看看相关分析。如果原始数据完全相关(相关系数=1),那么所有的点都会排列在一条直线上;但如果不是完全相关,相关系数就会随着数据对完全相关(直线)的偏离,从  1  开始逐渐减小。其实,越偏离直线,指标越小于  1  的现象也适用于一元回归。数据偏离越远,回归直线就越不能准确地代表原始数据,R  2  表示数据的偏离程度。