乐读文学

如何用数据解决实际问题

乐读文学 > 外国小说 > 如何用数据解决实际问题

你能用数字推翻众人的理解吗

书籍名:《如何用数据解决实际问题》    作者:柏木吉基



我在日产工作期间,遇到过最困难的工作之一是“用数字来证明多数人的理解都是错的”。我当时的工作是针对高管认定的问题进行分析并提出对策。这种情况下,可以收集一些相关数据,做做表面文章,然后归纳出一个故事,汇报说“确实是这里有问题,因此我认为应该这样来改进”等。这样做最“轻松”,也不会在公司里掀起波澜,是一种“稳妥”的方法。

但我依据自己的亲身体验,实在无法认为高管指出的就是真正的“问题”。于是我收集了大量数据,最后证明“问题不在这里”,得出了完全相反的结论。“XX  不是  XX”  就好比“没有鬼”一样,是很难证明的。

此外,组织内部还有一些压力,例如认为“明明是高管指出的问题,你(提出反对意见)是作何打算”等。因此无论从技术上,还是从心理上,我都要面对一个棘手的难题。

我并没有这个问题所涉及领域的实际业务经验,不过这次经历教会我的是,只要认真收集数据,条理清晰地解读事实,就算无法  100%  证明正确,也仍然能够得出具有一定可信度的结论。对于大家都在主观上认为是“A”的问题,我凭借数据的力量,提出“不是  A,而是  B”的结论。

当时有一位外籍董事支持我的观点,他主动替我向最高层主管进行了演示和说明。就算是为了不辜负他为我承担的风险,我也要仔细地确认事实,构建出严密的逻辑根据,以求万无一失。这项提案果然获得了高层的认可。

由于我的坚持和努力,大家没有成为“本来没有问题的问题”的牺牲。此外,因为需要各个方面的数据、信息以及协助,我通过这个项目得以在公司构建起牢固的人脉网络。一年半以后,我没有任何经验却获得了财务部的职位,这是我在日产工作的最后一个岗位,也是当时那位外籍董事介绍给我的。



更上一层楼(高级技能简介)


前面介绍的这些技能,能够用来解决所有行业中的问题。那么掌握了这些技能之后,还可以再学习、积累哪些内容呢?

接下来我们既可以力争解决多种问题,积累经验,也可以掌握一些难度更高的技能。作为更高一级的内容,我想介绍  2  种方法。感兴趣的读者也可以阅读相关书籍来加深理解。

(1)多元回归分析

第  4  章介绍的回归分析因为只涉及  2  种数据,所以被称作“一元”回归分析。一元回归分析可以说是将现实世界极度简化的一种模型。对有些分析所要求的准确度或目的来说,这种模型就足够了。

不过,例如考虑“销售额”时,恐怕无法只用产品、价格、顾客等当中的  1  个原因进行说明,而是需要分析多个原因的综合作用,这样才更接近现实。

“多元”回归分析的方法可以实现这个目标。与简单的一元回归分析相比,多元回归分析能够考虑更为复杂的要素,难度更高,其结果也更具有说服力。我们可以将一元回归分析和多元回归分析得到的结果放在一起,对比其不同之处(分析结果为虚拟数值)。

一元回归分析  :销售额(日元)=来店人数(人)×35.2+50  000

多元回归分析  :销售额(日元)=来店人数(人)×40.8  +减价率(%)×14.9  +宣传单投放频率(次/周)×  20.5  +  85  460

看到这里,可能有人会说,“那么就不要用一元回归分析,都用多元回归分析吧”。然而考虑到实际情况,并不能这样说。就我自身而言,除了极为特殊的情况,一般不会在培训中介绍多元回归分析,或者在实际工作中推荐别人使用多元回归分析。

在  Excel  加载项中有“分析工具”,其中包括回归分析,我们可以用它来进行分析(详细请参照本书  105  页对  Excel  加载项的介绍)。试用一下就可以发现,多元回归分析的结果恐怕会让很多人都大吃一惊,而我也完全能理解他们的心情。

因为其结果并不是用“销售额=……”的公式来表示的,而是一下子列出“自由度”“必然  F”“标准误差”“t”“p  值”等很多让初学者不知所措的专业词汇。这些数值主要是用来评价分析结果是否可靠的。

如果只看“系数”栏,也可以写成方程式,但其前提是要对该方程式在统计学上的可信度进行评价,之后才能用于实际工作。要想得出准确的分析结果,这一步是不能省的。

具体方法是看各系数的“p  值”,当它低于  5%(0.05)时,该系数为零(即该系数不产生影响)的可能性在统计上很小,因此可以作为回归分析的结果来使用。相反,如果“p  值”超过  5%,则需要剔除这个系数,重新进行回归分析。

为什么需要考虑  p  值呢?其主要原因与“多重共线性”有关。多重共线性(multicollinearity)指如果多元回归分析的解释变量之间存在相关关系,其相互影响会导致分析得到的系数失真。

例如前文对“销售额”的分析中,如果“宣传单的投入频率”与“来店人数”各自独立的话没有问题,但如果投入宣传单也会对来店人数产生影响的话,就有可能引起多重共线性的问题。也就是说,多元回归分析的前提是,解释变量之间不相关,各自独立。否则,就无法准确计算出各变量的系数。

按理来说,我们可以先计算解释变量之间的相关关系,然后只选择不相关或相关较低的变量进行多元回归分析。但在实际工作中,这个问题非常棘手。

为了确保不产生多重共线性问题,需要反复改变变量的组合,多次进行多元回归分析,确认整体结果,这样会耗费大量精力。而且如果数据有限,那么也很可能出现下面的情况,即尝试了现有数据的各种组合,但都存在多重共线性问题,数据根本派不上用场。

我也曾经有幸找到合适的变量组合,从而得出高准确度和可信度的分析结果,但也有过很多次大费周章最后却徒劳无功的经历。

对多重共线性、分析结果的统计学评价等问题,如果分析者不具备一定程度的知识和经验,在遇到“这个结果真的正确吗”的质疑时,就只能含糊其辞地回答“应该是的……”。在事关重要经营判断的场合,一知半解地使用多元回归分析得出结果,从各个角度来看都伴随着较大风险。

虽然写了这些批判性的观点,但我并非完全反对使用多元回归分析。在理解了这些难点和前提条件的基础上,运用难度更高的数据分析,有时也可以获得更多的知识。

此外,多元回归分析是多变量分析的典型方法。不用自己分析,而是将分析工作外包给外部公司去做时,为了便于与专业人士沟通,或者更好地理解收到的分析结果,我们都可以了解一些多元回归分析的方法和注意事项。

下面再介绍一下多元回归分析广阔的应用范围及其真正实力。多元回归分析也分几种不同类型。例如数量化一类分析可以定量表示男女、天气、季节(春、夏、秋、冬)等定性变量,对其进行回归分析。该方法将定性项目置换为虚拟变量“1”和“0”。例如用  1  表示男性,用  0  表示女性。通过回归分析,可以得出类似“下雨天销售额会增加  10  万日元”“春季来店人数会减少  500  人”等结论。

此外,在市场营销领域,还有叫作“logistic  回归分析”的方法。该方法可以用于被解释变量是定性变量的情形。例如预测顾客对某个活动做出反应的概率等。这种分析所需的数学背景要比基于比例关系的普通回归分析更为复杂。

除了  Excel,还可利用各种应用软件进行多元回归分析。但即便使用应用软件,也需要分析者对包括多重共线性问题等分析做出必要的判断和调整。我们不能把数据导入软件,就毫无保留地信任和使用软件得出的答案。为此,也需要具备基本的数据理解能力和分析能力。

(2)样本与总体(假设检验)

我们要明白,用于分析的数据并不代表“全部”,这一点极其重要。例如,假设我们想使用会员数据来分析顾客的购买行为。但这些数据只是愿意成为会员的“积极顾客”。即使能够收集到所有顾客的数据,也仍然不能确定它对于了解新顾客的特性可以发挥何种程度的作用。

这里需要注意两件事。一是在实际工作中,用于分析的数据大多是“现有数据”。因为是能够获得的有限数据,所以就有可能会产生偏颇。还有一个注意事项,即使是根据分析目的,有计划地调查或收集到的数据,它们也都是样本数据,而不是所有数据。

这些理所当然的事情,却常常被忽视。无论使用多么高级的分析工具,进行多么无懈可击的分析,如果最关键的输入数据有问题,其结果就会质量堪忧。

对于上述第一个注意事项,并没有根本的解决方法,因为“没有的东西(数据)就是没有”,不过至少分析者需要了解,自己所采用的数据属于哪个范围,它对于目的来说处于何种定位。很多情况下,我们获得的数据大多只是与“眼前的问题”相关的数据,例如“新宿店的商品  A  的销售数据”等。可能我们想针对商品  A  或者新宿店销售减少的状况进行分析,但仅凭这项数据只能获得半径几十米范围之内的信息。

如果能获取其他店铺、其他商品等数据,分析的视点就可以扩大到“公司内部”。接下来应该考虑的是,“只是本公司内部的问题吗”,这样视点就能扩展到与外部的竞争。于是还需要竞争对手、同类产品的数据。

接下来,如果要考虑开发过去对这种商品及竞争对手产品都不感兴趣的新顾客,从而改善销售情况的话,只看销售业绩的数据还不够。因为销售数据显示的只是已经购买该商品的顾客的行为和判断。这个范围之外的人也许会做出其他判断或行为。此时就需要另行调查或者收集其他数据。

那么,关于样本数据应该怎么做呢?我们需要了解统计分为“描述性统计”和“推断性统计”。描述统计指使用平均值、标准差等统计指标来整理或展现多个数据的特征。推断统计指根据作为样本收集的数据,来推断所有数据(总体)的特征。

大多数分析所用的数据都是样本数据,因此必须了解分析的前提是用样本数据来代表总体。严格来说,采集数据样本时也需要注意一些问题,防止出现偏差。

不过在实际的日常工作中,常常由于时间和精力有限,即使在一定程度上牺牲准确度,也会利用现有的数据进行分析。也就是说,学术上的严谨性与实际工作之间需要达到平衡。

虽然大数据时代有可能为我们提供庞大的数据用于分析,甚至不用区分样本与总体,但从一般的工作角度来看,可以说这只是特殊情况。因此,作为根据样本数据推断总体特性的方法,接下来介绍被称为“检验”的统计方法。

例如,假设让随机抽选的男女顾客各  50  人为新开发的糖果产品打分,对平均分进行比较。结果是女性顾客的平均分高于男性。那么是否可以认为“该产品更受女性欢迎”,把重点放在面向女性的广告上呢?如果不考虑样本或总体的问题,只根据合计  100  个数据很可能会得出这样的判断。

但请仔细考虑一下。我们能够断定上面  2  个平均值的差异不只限于样本,而是总体(例如该糖果的整体市场)也“存在差异”吗?还是说如果选取其他样本,就会发现这个差异只是靠不住的“误差”呢?

像这种使用样本数据来确认总体的平均值差异也具有“显著性”的统计方法就是“检验”。我们应该知道,这只是使用样本数据来推断未知的总体数据的特征。

检验的对象除了平均值的差异之外,还有多种应用模式。篇幅所限,这里很难涉及所有内容或者深入介绍详细理论,有兴趣的读者可以参考相关书籍。

检验总体平均值差异的步骤如下。

①提出原假设(归无假设):“样本平均值与总体平均值之间不存在差异”

②确认能否通过“t  检验”否定(驳倒)归无假设

③如果原假设被否定,说明“二者之间的差异具有显著性”;如不能否定,则“不能认为二者之间的差异具有显著性”

左右检验结果的条件,主要包括样本数据的个数(样本数量)和样本数据的分布方式(标准差)。了解详细的理论当然也很重要,不过我们首先要知道结果取决于这些变量。计算过程用  Excel  就可以完成。

如果问我在实际工作中,用过多少次检验呢?答案是几乎接近于零。一般从事实际工作的人当中,很少有人能够理解“使用样本数据对总体平均值进行检验,其结果是假设被否定,二者之间的差异具有显著性”的含义。如果分析结果的意义和机制无法获得对方的理解,就很难在工作中实现其目的。

再说,只从理论上指出“未见到统计学上具有显著性的差异,无法用来参考”,并不能解决工作中“那么到底应该怎么做”的问题。

不过了解推断性统计仍然具有以下两个方面的意义。

①能够帮助我们了解自己所使用的数据范围的局限,并在此基础上进行分析(可以防止毫无防备地用现有的所有数据单纯地得出结论)

②与外部分析人员交流时,经常会碰到“显著性”这个词。了解“统计学上具有显著性”的含义,可以准确地理解分析的结果,并与外部的分析人员进行沟通



从这两点来看,了解推断性统计对于提高我们的分析技能、增加相关知识具有重要意义。