乐读文学

算法的陷阱

乐读文学 > 科普学习 > 算法的陷阱

大数据与量化分析工具的崛起

书籍名:《算法的陷阱》    作者:阿里尔.扎拉奇


从亚马逊的例子来看,市场份额的开拓离不开大数据与量化分析工具的助力。虽然大数据的内涵广泛,但在这一节中,我们将聚焦个人信息数据。按照OECD给出的定义,个人数据是指“与一个可确认身份的个体有关的所有信息”。  34  一般说来,大数据的特点可以用“4V理论”概括:数据的规模(volume),数据收集、运用、传播的速度(velocity),聚合数据的多样性(variety),以及数据所蕴含的价值(value)。  35

当量化分析成为趋势以后,大数据的价值正在放大。所谓量化分析工具,指的是可以处理并分析海量信息的算法模型。随着机器学习(machine  learning)能力的精进,大数据在各个领域的表现越发出众。

近年来,用来辅助定价决策、贸易往来与物流管理系统的自学习算法已取得了突破性研究进展。与此同时,行业领先的玩家仍在加大对人工智能深度学习技术的研发资金投入。2014年研发人工智能的初创企业募集到的资金已比前一年增加了两倍,其中数额较大的交易有Sentient  Technologies公司1.04亿美元的C轮融资,由美国著名风投公司Formation  8与ABB  Technology  Ventures领投的Vicarious  Systems公司的B轮融资(合计1,200万美元)。  36

2011年,IBM(国际商业机器公司)研发的计算机系统“沃森”(Watson)在美国最受欢迎的智力竞赛节目《危险边缘》(Jeopardy!  )中击败了该节目历史上最成功的两位人类选手。“沃森”不仅震惊了世界,还彰显了自己强大的深度学习能力。利用计算机系统在机器学习、大规模并行计划、语义处理等领域的非凡进展,“沃森”可以在反复测试与反馈中优化自己的解题策略,并理解人类的自然语言。  37  这之后,在“打造数据支持类人工智能应用”的目标驱动下,IBM公司继续加大针对计算机系统深度学习的研发投入,并且拓宽了这项技术的适用范畴,增强了它的实用性。  38

近年来,由谷歌(Google)公司研发的DQN(即Deep  Q  Network)则有望将人工智能技术往前再推进一大步。为测试这一算法程序的可靠性,研究人员首先让DQN挑战了几十个传统的雅达利小游戏。与IBM的“沃森”有所不同的是,研究人员并没有将这些游戏的游戏规则直接输入DQN的程序中,DQN需要在玩的过程中自学,找到取胜之道。DQN的算法模型灵感取自人脑的中枢神经系统,并且可以在实践的基础上强化自身模拟神经网络的强度。这种称为“谷歌大脑”(Google  Brain)的人工智能系统拥有100万个模拟神经元以及10亿个模拟神经网络连接,其复杂程度是其他人工神经网络的十倍有余。  39

当前,深度学习技术已渗入人们的日常生活中。在用户自助服务、打造交互式购物体验等方面,智能算法的作用越发凸显。欧盟数据保护监督局(European  Data  Protection  Supervisor)的调研表明,目前算法已经可以做到理解并翻译各种语言、识别影像、撰写文章以及分析医疗数据。  40  在微软的Windows  Phone手机和必应(Bing)语音搜索功能中,在谷歌、丰田、苹果、奥迪、捷豹等科技企业或传统汽车企业正在研发的无人驾驶汽车里,深度学习软件正在发挥作用。还有股票交易市场,量化分析与大数据早已成为贡献丰厚回报的利器。  41

在实际应用中,大数据与量化分析的组合是相辅相成的。如果掌握海量数据的公司无法迅速对这些数据进行分析,并以此为据做出经营策略的调整,那么大数据所能发挥的作用将很有限。相应地,机器学习技能的增进也需要大量数据的支撑。同样是根据欧盟数据保护监督局的研究,“具备深度学习功能的计算机可以借助模仿人脑的人工神经网络处理大量的数据集,并完成学习任务”,  42  当它们得以接触并处理更多相互关联的数据时,这些算法的学习能力将得到提升。对此,有一种说法是,如果简单的算法公式能够获取大量数据,那么它的表现将最终超越那些掌握了很少数据的复杂算法。造成这种结果的部分原因在于:算法学习能力的提升有赖于反复测试。此外,大数据中数据的相关性也能在算法的学习过程中提供辅助。

为了“做出有意义的工作”,IBM的“沃森”和其他人工智能系统都需要一样法宝——数据。这也就解释了IBM收购了天气有限公司(Weather  Co.)的数据资产的原因,后者曾研发了一款很受欢迎的气象预报应用程序——“气象频道”(Weather  Channel)。  43  通过分析大量的气象数据,“沃森”可以做到不断改进与自身有关的气象数据的算法。  44  进而IBM再将“沃森”的算法服务卖给其他机构,如保险信息技术公司Octo  Telematics,后者将IBM的实时气象数据视作自己开发的“驾驶行为评分”应用程序的重要输入变量。  45  在Octo  Telematics提供的免费手机应用程序上,它向使用者提供以驾驶员驾车行为作为重要参考的个性化车险报价。它的算法不仅分析了驾驶员的车速、猛踩刹车或加速的频率,还将那些因为天气状况而可能引发的种种情况作为其他外部变量(如糟糕的路况)纳入模型,并在综合考虑上述因素后得出驾驶员行为评分。  46  对那些得到较高驾驶行为评分的司机而言,他们可以在Octo  Telematics公司享受到比其他保险商更低的车险报价。在这个例子中,我们可以看到,根据准确的天气条件报告与在特定天气条件下某段车程总体耗时的相关数据,IBM的数据驱动类算法可以帮助它的客户打造一个精确可靠的评分系统。  47  此外,我们还了解到了一点:在为保险产品提供个性化定价的过程中,保险公司正在从参考历史数据(一位司机在过去一年收到罚单的数量)的方式转变成依赖实时数据(司机在昨夜积雪结冰路面上的行车表现)。

当拥有10亿级用户基数的脸书(Facebook)与智能算法结合时,又会对网络推广产生什么影响呢?在下面这个案例中,我们将一探究竟。在脸书举办的2016年开发者年会上,脸书创始人兼首席执行官马克·扎克伯格(Mark  Zuckerberg)大谈人工智能即将与脸书用户产生的互动。扎克伯格指出,“有了人工智能、自然语言处理技术(natural  language  processing),再辅以一点人工帮助,人们将可以做到与聊天机器人畅快交谈,这感觉就像是和朋友聊天般亲切”。  48  就此,公司负责通信产品研发的副总大卫·马库斯(David  Marcus)还向与会人员做了一份专题报告,说明脸书目前在该领域的研究进展。  49  不单是脸书,苹果、亚马逊、谷歌、微软同样也在加大相关产品的研发力度。在研究人员的计划中,这种靠语音激活的数字化助理可以不必等待指示行事,它将通过“学习”自己做出决定。  50  有了大数据与量化分析的鼎力相助,这种即时线上交流工具的性能将得到明显改进。

此外,人工智能领域的另一项突破性进展体现在计算机系统在有限信息条件下问题处理能力的提升。早在20世纪末,计算机算法就已经能够在完美信息博弈(perfect  information  games)条件下处理各类问题。以国际象棋为例,计算机程序可以在博弈的每一步清楚地知道这一步之前的每一步过程,从而计算出最佳反应策略,打败对手。直到2015年,人工智能终于在不完美信息博弈层面取得重要进展。当年,几位计算机科学家宣称,他们新开发的计算机算法可以攻克不完美信息扩展式博弈这个难题(扑克牌游戏就是这类博弈在实际生活中的代表)。据称,这种计算机算法已经在游戏测试中“侥幸”战胜了对手。

现在,让我们分析一下人工智能在博弈论领域取得突破的重要意义。在国际象棋中,根据棋子在棋盘中摆放的位置,对局双方可以知晓此前走的每一步,以及当前棋局的情况。但在扑克游戏里,由于牌面并不明朗,玩家无法掌握整个牌局的全部信息。  51  因此,也导致求解扑克游戏的复杂程度要远比国际象棋高得多。但是,从统计学的意义上讲,这种新型算法计算出的出牌策略已经可以让自己在一局双人限注德州扑克游戏中立于不败之地。  52  这项技术突破的意义在于,在面对真实世界中的信息不完全状况时,计算机已展现出它可以进行“类人”式互动与决策的潜质。



云计算与物联网

未来十年,随着数据质量与广度的提升,机器学习与大数据之间的正反馈回路也将加速提挡。实现这一目标的重要贡献因素是云计算与物联网(Internet  of  Things)。

2015年,亚马逊的云计算与存储部门为客户增加了一项服务,相应的算法将帮助它们从客户现有的数据中找到规律,从而预测产品销量、消费者喜好,甚至是流行趋势。  53  尤其是随着数据规模的递增,这种发挥预测功能模型的准确性也会提高。无独有偶,谷歌和微软同样也在云计算服务中增添了拥有自学习能力的算法模型,用来分析数据并预测客户未来的销售结果。  54  借此,一个正向反馈随之而来:如果亚马逊云计算与存储部门的客户想要从这些模型提供的营销方案中获得竞争优势,那么他们会更有动力收集数据,并使用云计算服务;对于提供这项算法服务的企业来说,数据的积累意味着算法预测准确性的精进。

除了云计算的强大力量,物联网也将发挥作用。作为新一代信息技术的重要组成部分,物联网实际上是互联网的延伸与拓展,是将通信感知工具植入日常物品的一项新兴技术。这项技术可以实现机器通信(machine-to-machine  communication),并且利用通信感知工具收集信息,分析这些数据。

同样是在2015年,亚马逊启动了它的物联网云平台(IoT  platform)。在这个全托管的云平台上,互联设备可以轻松安全地与云应用程序及其他设备交互。  55  它可以支持数十亿台设备和数万亿条消息,并对这些消息进行处理,再将其安全可靠地路由至AWS(Amazon  Web  Services)终端节点和其他设备上面。  56  根据研究机构国际数据公司(International  Data  Corp)的估算,到2020年,全球物联网市场的产值将呈倍数增长,达到1.7万亿美元。  57  此外,这家研究机构还注意到,众多科技企业都在下大筹码,抓紧布局物联网领域,像谷歌、英特尔公司(Intel  Corp)、思科(Cisco  Systems)、三星电子(Samsung  Electronics)以及主流电信商——魏瑞森(Verizon)和沃达丰(Vodafone)——都不甘落后。  58  当传统的数据收集是通过我们自己上载个人信息或者与线上卖家沟通实现时,物联网的普及将为算法的升级提供更丰富的数据。长此以往,新生产的电子产品都将搭载人机交互界面。安装有人机交互界面的家用电器、衣物、轿车、自行车,以及智能建筑材料、可植入人体的传感器等将走进千家万户。