登陆注册
1908500000002

第2章 引言(2)

本书着重介绍了前沿科学和高端技术,我认为其内容是积极乐观的,却被严重曲解了。虽然那些数字不能为自己辩护,但我们却可以作为数字的发言人,赋予它们意义。这就好比对恺撒密码解码一样,我们可能会以对自己有利的方式对这些数据进行分析和解释,而这些方式很可能与这些数据(所代表)的客观现实不相吻合。数据驱动预测机制可能会成功,也可能会失败。一旦我们否认数据处理过程中存在着主观因素,失败的概率就会增加。要提高数据分析的质量,首先要对我们自身提出更高的要求。如果对我的情况不甚了解,你可能就会对前面的提法颇感意外。我在数据和统计学领域还算小有建树,曾经据此做出不少成功的预测。2003年,由于厌倦了咨询工作,我设计了一个名为“PECOTA”的系统,主要用来预测美国职业棒球联盟球员的各项数据。这个系统有很多创新点——其预测是概率性的,比方说其中为每位球员都列出了一系列可能出现的结果——当我们将这些预测结果与比赛系统给出的结果进行比较时,发现这套系统的性能更加优越。2008年,我建立了“FiveThirtyEight”(538网站,因538张选举人总票数得名)网站,试图对即将举行的美国总统大选进行预测。该网站对两位美国总统候选人在美国50个州中的竞选结果进行了预测,结果命中49次竞选,只有1次失手。另外,我的网站还预测出美国参议院选举的35个席位归属。

美国总统大选过后,很多出版商找到我,希望我能为《点球成金》和《魔鬼经济学》这类关于小人物征服大世界的书籍估个价。本书涵盖很多行业和领域,从金融领域,到国家安全,对这些行业和领域中的数据驱动预测机制进行了调查。

在4年时间里,我曾与十几个领域中的100多位专家交流过,读过数百篇期刊文章和论文,为了实地调查,我跑遍了从拉斯韦加斯到哥本哈根的许多地方,却发现“大数据”时代的预测活动发展得并不顺利。我的成功也只是因为我在某种程度上比较幸运,一是尽管出现了本书中提到的一些错误,但还是取得了成功;二是选对了调查案例。

本书提到了几个值得研究的例子,集人类判断与计算机功能为一体的天气预报就是其中之一。虽然气象学家的名声不好,可是他们也取得过显著的进步,比如他们预测飓风着陆位置的准确度比25年前提高了3倍。与此同时,我还拜访过一些在赌城拉斯韦加斯轰动一时的扑克牌玩家和(体育赛事)赌徒。

但是,这些预测成功的案例必然是建立在一系列失败案例的基础之上的。

如果让我们用一个特点来定义美国人——一个令其与众不同的特质——那就是美国人对卡修斯精神的信仰:我们的命运由我们自己主宰。一些宗教叛逆者迎着工业革命的曙光建立了美国,他们认为自由流动的思想不仅有助于传播其宗教信仰,也有助于传播科学和商业贸易,“作为一个民族,我们的智慧、我们的勤劳、我们的傲慢和急躁、我们所有的强项和弱项,都源自我们那不可动摇的信念,那就是我们要为自己做主”。

新千年给美国人带来的是噩梦般的开始。我们没有预测到“9·11”恐怖袭击事件,而这一惨剧的出现并非因为我们的信息匮乏。正如60年前的“珍珠港事件”一样,其实所有的信号都在那里,只是我们没能将它们联系起来。因为对恐怖分子可能会有的举动不够了解,所以我们对那些数据视而不见,不知道大难将至。

近期,对全球金融危机的预测也总是失败。我们天真地相信各种(预测)模式,却没有认识到这些模式在我们进行假设选择时根本不堪一击,因此总会带来惨痛的后果。在日常生活中,我发现尽管人们也在努力尝试,却仍然无法提早预测出经济衰退。幸好在控制通胀方面,我们已经取得长足进步,否则那些经济决策者就只能“盲目飞行”了。

与20世纪70年代一样,近来人们十分热衷于对地震进行预测,其中大部分高度依赖数学方法和数据处理技术。但是,这些预测只是假想一些从未发生过的地震,对真正发生的那些地震却没有预测到。福岛核反应堆的设计可以抵抗8.6级地震,因为一些地震学家称不可能发生更高级别的地震。但是,2011年3月日本却发生了9.1级的特大地震。

错误地预测整个学科的发展常会危及整个社会。以生物医药学的研究为例。2005年,一位土生土长的雅典人,医学研究者约翰·P·埃尼迪斯,发表了一篇颇具争议性的论文,题为“为什么大多数发表的研究成果都是骗人的”。该文对那些行业期刊中刊载的积极的研究成果进行了研究(这些成果认为那些在实验室实验中得到验证的医学假设堪称成功预测),认为大多数成果在实际生活中很可能是毫无用处的。德国拜耳制药公司最近证实了埃尼迪斯的这个推断,他们通过实验亲自对那些医学期刊中提到的积极研究成果进行验证,但发现其中近2/3的医学假设根本不能成立。

这些大数据终将推动社会进步,至于这种进步的速度有多快,或者进步的同时是否还会倒退,这些都取决于我们自己。

为何未来使我们震惊?

人类并没有多少天生的防御能力,人类的速度没有多么快,身体也没有多么强壮;人类没有利爪和尖牙,也没有护身的硬壳;人类不能喷出毒液,不能伪装自己,也不能飞翔。我们之所以能生存下来,是因为我们运用了智慧。我们的思维很敏捷,我们能够敏锐地感知事物的模式,对机遇与威胁迅速地做出反应。

“人类比其他动物更需要发现模式”,麻省理工学院的神经系统学家托马索·波吉奥对我说,他的研究领域是人脑对信息的处理模式。“在复杂情境中识别物体的能力是一种概括能力。一个新生儿就能识别人脸的基本模式,这种能力是进化而来的,是人类生来就有的,并非后天习得的。”

但波吉奥认为,问题在于这些进化来的本能有时会让我们去寻找原本不存在的模式,“人们一直都在努力从随机噪声(即无规律的状况)中发现模式”。

人脑能力非凡,其信息存储量或高达3千兆字节。然而,据IBM公司称,人脑的存储量不过是全球每天所产生信息量的百万分之一而已。因此,我们对自己记忆的信息一定要精心挑选才行。

在1970年出版的《未来的冲击》一书中,未来学大师阿尔文·托夫勒对他所说的“信息超负荷”的一些后果进行了预测。他认为,尽管世界本身正走向分化,变得更加复杂,但人类仍会以坚持自身看法的方式使这个世界变得简单,这便是我们的防御机制。

我们的生物本能有时会对这个信息丰富的世界难以适从。所以,我们需要积极努力,坚持自己所持有的看法,这样才有可能将重返信息负荷状态的可能性降到最低,甚至消除这种可能性。

印刷机诞生后,信息超负荷催生了更深层的宗教主义。现在,那些不同的宗教思想可以通过更多的信息、信念和“证据”得到证明,而且更难以容忍反对意见。同样的情况似乎到今天都一直存在。在托夫勒刚刚开始写《未来的冲击》这本书时,美国的党派政见分歧开始加剧,这种分歧也许会随着互联网的出现愈演愈烈。

不同的党派政见颠覆了“信息越多,就越靠近真相”这一信条。《自然》杂志上最近刊登的一项研究发现,几大政党对全球变暖的问题了解得越多,他们之间达成共识的可能性就越小。

同时,如果信息的数量以每天250兆亿字节的速度增长,其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。有太多假设需要验证,有太多数据需要发掘,但客观事实的数量却是个相对恒量。

印刷机改变了我们犯错误的方式,从前经常出现的抄写错误越来越少。然而一旦出现错误,这个错误就会被多次复制,《邪恶圣经》里出现的错误就是这种情况。

像万维网这类复杂的系统有这样一个特点,它们不像那些相对简单的系统那么容易出错,但一旦出错,必定是要命的大错。在信息宣传方面,资本主义和互联网都非常高效,这就使得好坏两种消息的广泛传播成为可能,而且坏消息也许会造成更大的影响。金融危机爆发之前,这一体系正处于高度负债经营的状态,那些信誉评级机构的预测模式一旦做出错误的假设,哪怕只是一个错误的假设,都极有可能摧毁全球的金融系统。

制定规章制度是解决这些问题的途径之一,但是我怀疑这种制度会成为我们逃避自身问题的借口。我们要停止对事物进行预测的做法,并且承认我们的预言有问题。我们喜欢对事物做出预测,而我们的预言却总是出错。

预测与贝叶斯定理

如果说预测是本书的中心问题,那么它同时也是这一问题的解决方案。

预测在我们的生活中必不可少。每次我们选择工作方法、决定是否要与对方展开恋情或是未雨绸缪地将钱存起来,都是在对未来将要发生的事情进行预测,也是在对我们计划的成功概率进行预测。

不是所有的日常问题都需要费心思量,我们作每个决定的时间是极为有限的。尽管如此,我们每天还是要进行许多预测,只是有时没有意识到而已。

正是出于这个原因,本书将预测视为人们共同的事业,而不仅仅是一些顶级专家或相关从业者的职责。取笑那些专家的预测失误总是乐趣无穷,而在幸灾乐祸的同时,我们自己也要多加小心。如果说我们的预测不会比那些专家更糟,只不过是欲贬先颂罢了。

然而不可否认,预测在科学领域中的确扮演着重要角色。你们中有些人也许对我此前提到的一个前提感觉不舒服,现在我来澄清一下这个前提:我们永远都不可能做出完全客观的预测,因为这些预测总会带有主观色彩。

但是,本书对“根本不存在客观真理”这一虚无缥缈的说法完全不赞同。相反的,本书认为要做出准确的预测,首要的前提就是坚信客观真理的存在,并且执着地追寻它。而预测者的另一个承诺,就是要认识到他无法穷尽对客观真理的认知。

预测之所以重要,是因为它连接着主观世界与客观现实。科学哲学大师卡尔·波普尔早就意识到了这一点。对他来说,假设并不科学,可证伪的假设才是科学的。这就意味着在真实世界里,假设可以通过预测得到检验。

令我们裹足不前的是,经过验证的那些为数不多的想法的实际作用并不大,而且许多想法未经过检验,或者根本就无法检验。在经济领域中,验证失业率预测的准确性要比验证刺激消费政策的效果的论断容易得多。

我不会像波普尔那样,断言这样的理论不够科学或者没有价值。事实是,少数几个可以检验的理论得出的结果很糟糕,这就表明我们没有检验的那些想法中有很大一部分是大错特错的。毫无疑问,我们生活在幻想中却不自知。

但解决方法还是有的,这种方法不依靠不成熟的政策—尤其是当我意识到出现这个问题在很大程度上是因为美国的政体有问题时—它需要的是态度上的转变。

这一态度会通过贝叶斯定理得到体现,我在第八章中会讲到这一定理。贝叶斯定理名义上是一个数学公式,但其内涵却远远超出公式的范畴。这一定理表明,我们必须从不同角度去思考我们的想法,以不同的方式检验我们的想法。我们要坦然面对各种可能性和不确定性,更加周详地考虑我们对一个问题的假设和看法。

本书可以粗略地分为两部分。前7章的内容分析预测的问题,后6章的内容对贝叶斯定理进行了探讨和应用。

每一章都围绕着一个特定的主题展开,并且对其进行深入分析。不可否认,这是一本复杂详尽的书,一方面因为细节通常可以揭示关键问题;另一方面,在我看来,专注于某一问题的研究总会得到比概括研究更深刻、更独到的见解。

我选择的话题通常是公众共享的信息,预测的案例很少依据私人信息选择(公司利用客户记录预测新产品的需求量)。我更倾向于那些大家可以一起挖掘真相的话题,你不需要只听我的一面之词。

本书的阅读路径

本书涵盖了自然科学、社会科学以及体育运动等各个领域的诸多实例。书中将许多相对通俗易懂的案例改造成需要稍微加以巧妙处理的案例。这些案例对成功的预测与失败的预测进行了清楚的划分。

第一章至第三章讨论了近期出现的金融危机大背景下的失败的预测,预测中有的很准确,有的则很离谱。预测会让你想到关于预测的最基本的问题:在应用数据时,我们怎样才能做出客观的判断呢?关于市场竞争,什么时候可以做出更准确的预测呢?当我们意识到未来与过去不一样时,又如何在两者之间进行协调呢?

第四章至第七章重点讲述动态系统:地球大气层的动态会带来天气的变化,构造板块的运动会引发地震,复杂的人类活动会影响美国经济,还有传染病的传播、扩散。最优秀的科学家正在研究这一系列的因果关系,然而各类动态系统使得预测变得更加困难,这些领域的预测活动总是不尽如人意。

第八章至第十章主要探讨解决方案。首先介绍了一个体育赌徒,他在运用贝叶斯定理时比许多经济学家或科学家还专业,之后讲到扑克牌。体育和游戏都遵守规则,这一点是检验预测技巧的实验所必需的。这几章帮助我们更好地理解什么是不可测性和不确定性,让我们深刻理解如何把信息转变为知识。

然而,贝叶斯定理也可以被用来解决更多现存的问题。第十一章至第十三章讲到了3个问题:金融市场泡沫、全球变暖和恐怖主义。这3个问题对那些预言家和美国社会而言,都很棘手,但如果接受挑战,我们就能使我们的国家、我们的经济和我们的星球更加安全。

自从有了印刷机,我们的世界已经经历了太多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但有用的信息却寥寥无几。我们主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。

信号是真相,噪声却使我们离真相越来越远。本书为你呈现的就是信号和噪声的故事。

同类推荐
  • 北京交通发展研究报告2008

    北京交通发展研究报告2008

    本书以北京市国民经济和社会发展“十一五”规划为指导,围绕首都交通建设中存在的重大问题进行理论和实证分析,旨在为政府和交通相关部门提供决策服务和智力支持。全书共分为七章,包括:北京轨道交通对城市空间形态和城市规划的影响研究、北京市节点交通三轮车运营现状与对策研究、交通安全意识与安全行为关系研究、降低北京交通冗余的电子票务应用领域研究、交通运输经济可持续发展研究、非自控因素影响下的北京市公交企业运营效率的实证研究及基于运输效率理论对北京城市轨道交通换乘效率的研究。研究内容对北京市交通发展和城市规划具有重要的现实意义,也可以为国家各级政府部门的交通改革和发展提供理论依据和决策参考。
  • 国际市场营销学

    国际市场营销学

    对美国消费者来说,在选择同样性能和价格的商品的时候,“美国制造”这个标签往往是决定他们取舍的微妙因素,这就是本土品牌的价值。
  • 幸福经济

    幸福经济

    幸福应该与国内生产总值(GDP)一样成为一个国家发展水平的衡量标准。“幸福经济”虽然还没有纳入经济学教科书,但准确衡量幸福感的标准可能在企业和政府中得到广泛应用。许多公司长期以来一直将“职工是公司最宝贵的资产”挂在嘴上。近几十年来,以国内生产总产值来衡量的发达国家的经济产出显著增长,但人们却没觉得比以往幸福多少。如果国内生产总值和幸福感之间不再有联系的话,为什么政府政策还要致力于让国内生产总值处于上升轨迹?目前要解决的一个问题是让幸福成为全面的生活质量指标。我希望多年以后,这个指标能与国内生产总值一样重要。
  • 戴尔营销

    戴尔营销

    本书对戴尔公司的独特经营模式定制化营销进行了深入的剖析,介绍了戴尔企业文化、直销、客户战略、大规模定制与零库存等。
  • 创新创业5W:以色列奇迹对中国经济转型的启示(犹太智慧典藏书系 第三辑08)

    创新创业5W:以色列奇迹对中国经济转型的启示(犹太智慧典藏书系 第三辑08)

    犹太人被全球公认为“世界第1商人”,以色列被誉为“中东硅谷”和“创业的国度”,拥有3000多家高科技企业,堪称创造世界经济奇迹的“最小的超级大国”。其创新创业的奥秘何在?作者研究犹太文化20多年,先后6次探访以色列,写过20多本专著,并于2015年开始在内蒙古创办中以创新创业示范园,通过理论和实践给出了自己独特的答案,有助于中国的企业家和大学生打开“大众创业,万众创新”成功的大门。
热门推荐
  • 刀剑诗书

    刀剑诗书

    我要做这天下独一无二的仙,我要让这世界不再冷漠。
  • 系统化身

    系统化身

    唯是一个系统化身,穿梭在各个世界里,拯救各式各样的男配们。针对要拯救的男配们化作‘各式各样’的人或‘非’人类。
  • 丑丫头倒追冷少:我要变漂亮

    丑丫头倒追冷少:我要变漂亮

    开学第一天,来到学院门口,一群疯狂“女粉丝”围堵门口,无法入内。“谁有那么大的来头?”因为一个小小的座位问题,居然误打误撞地惹上了国民校草,课间校草把她抵到墙角“你什么事都要听我的”,某女不信邪“不!可!能!”,还没说出下一句话“唔……你这个坏蛋!”这一惊天之吻惹来不小的麻烦,成为了女生的全民公敌,头号黑名单。接下来的事更是意外,爸妈出国偷溜,恶魔居然撞上家,“在这里你也要听我的,不然我就让你知道痛苦的滋味”,某女无奈抱头“恶魔校草快闪开!”【求支持】
  • 萤火虫的港口

    萤火虫的港口

    没有天马行空的幻想,没有灰姑娘遇到高富帅。没有一直挂在嘴边的爱,可是爱,从来就在身边。秦臻:格格,我一直在你身边可以吗?滕格格:那么能不能让我这辈子也一切如旧。不求一切圆满,但求,你们一直在我身边不离开。好吗?苏烨:哥哥,你可以不喜欢我,但是你没资格管我应该接受谁。滕何其瞳:滕非。我这辈子疯狂了一回,也只会疯狂这一回,那就是嫁你。旋一:那时候啊,不过是年少不懂事……
  • 天行

    天行

    号称“北辰骑神”的天才玩家以自创的“牧马冲锋流”战术击败了国服第一弓手北冥雪,被誉为天纵战榜第一骑士的他,却受到小人排挤,最终离开了效力已久的银狐俱乐部。是沉沦,还是再次崛起?恰逢其时,月恒集团第四款游戏“天行”正式上线,虚拟世界再起风云!
  • 木叶山庄之夏娃的娃

    木叶山庄之夏娃的娃

    她,是天生卑微的丫鬟,却因一次弥天大谎平步青云,成为木兰琉球枕边红人,她就是鸣翠;她,是毒害大明皇后,挟走公主,在木叶山庄掌管三界众生生死轮回的明妃,她名叫生死司;她,和荼蘼公子有一段前世姻缘,竟然被妖魔化,终将把一生锁定在木叶神主的洞窟;尽管不爱,尽管与世无争,可是被迫成了生死司的情敌,在木叶山庄,她叫纤纤草,在沁春园,她叫春香。(本文纯属虚构,请勿模仿。)
  • 白与南洲两相忘

    白与南洲两相忘

    《白与南洲两相忘》简介:“小姐,花怎么卖?”他和她,青梅竹马,父母早早定下婚约。就因为她喜欢花,他用全部心血帮她开了全城花店,突如其来的地震,他忘了她。就在她重新回到花店时,公司倒闭,只能流落街头卖花。而他找到了她。“我不卖花,只卖人!”两个人再次重逢,而他一步步离她远去。为了让他记起自己,她为他呈现当初,而他……“我凭什么要记得你,恶心的女人!”“你说什么?说我恶心?我恶心……好,对不起,打扰了你那么久!”她放弃了他,离开了城市。可是他却有一丝丝难过……
  • 穿越之拯救我的偶像

    穿越之拯救我的偶像

    31世纪美少女穿越到千年以前强悍拯救偶像的同时也不忘记卖个萌,吃个豆腐。可是这过程为何如此一波三折,闻着伤心见者落泪。美少女表示:穿越虽易,恋爱不易,且爱且珍惜。且看美少女拯救偶像守护恋情奋斗史!
  • 殷先生的白月光是个魔女

    殷先生的白月光是个魔女

    他是京城无人不知无人不晓的冷面阎王。优秀单身汉(万年单身狗)是众人只可远观不可亵玩的高岭之花。就在众人觉得某男人要单身一辈子的时候,某人对着媒体,举着一张照片:“这是我老婆。”正在看电视的某魔女:“……”我还没答应呢!!!她以为一生都会陷在黑暗里无法自拔,却没想到遇到了自己的救赎。他是她苦痛生活里的一剂良药。她是他孤独生命里的皎洁月光。
  • 蛮荒

    蛮荒

    废柴张大聪,除了吃和睡什么也不会,又胖又丑,却情系美丽校花。一次意外使他获得了能让自己变帅变强的法宝,也获得了校花和众多美女的青睐。正当他为自己的好运气窃喜不已的时候,却发现自己在得到这些好处的同时,也陷进了一个危机四伏的蛮荒世界……