第 1 章 引子

第 1 章 引子

因果关系的概念以及寻找因果关系的方法从何而来?

 

1999 年,一个名叫 Sally Clark 的英国律师被法庭判定谋杀了她的两个孩子。1996 年 12 月,她的第一个儿子在 11 周大的时候突然死亡。当时,人们认为孩子是自然死亡。但是就在第一个孩子夭折一年多以后,Clark 的第二个儿子又在 8 周大的时候死亡了。在这两个案件中,两个孩子似乎都没有什么生理上的疾病。于是,他们的突然死亡引起了人们的怀疑。

这两个案件有很多共同之处:孩子们死的时候年龄差不多,他们的死都是由 Clark 发现的,当时家里只有 Clark 和孩子在一起,而且验尸报告表明两个孩子身上都有伤。一开始,人们认为第一个孩子的伤是抢救时造成的。但是,第二个孩子死后,人们对孩子的伤重新做了检查,而这一次他们认为这些伤很可疑。第二个孩子死亡四周后,警方逮捕了孩子的父母,随后 Clark 被指控为谋杀罪并获刑。

同一个家庭的两个婴儿都死于婴儿猝死综合征(SIDS)的概率有多大?据英国检察官称,发生这种情况的可能性微乎其微,所以这两起死亡一定是谋杀所致。这一论据(一个原因的可能性几乎为零,所以一定还有另外一个原因)造成了这桩著名的冤案。这也是因为统计不当和忽视因果关系而造成严重后果的一个重要案例。

统计学家和因果关系研究者都知道这个案例,其主要原因在于,检方的论据本质上基于这样的逻辑:被告的辩词几乎不可能为真,所以一定是假的。检方为此请来了一位专家证人——Roy Meadow 博士。Meadow 称,同一个家庭发生两起 SIDS 事件的概率为七千三百万分之一。检方由此认为,因为这个概率非常低,所以这两起死亡事件不可能出于自然原因,一定是谋杀所致。

然而,这一统计数据完全是错误的。即使这个数据是正确的,也不应该这样用。有一份研究报告估算出发生 SIDS 的概率为 1/8543。Meadow 根据这个研究报告提出:同一个家庭发生两起 SIDS 事件的概率为 1/(8543×8543),即约七千三百万分之一。1这种计算方法错误的原因在于,它假定这些事件是相互独立的。抛硬币的时候,无论硬币落地时是正面朝上还是反面朝上,都不会对下一次结果产生任何影响。因为每一次硬币正面朝上的概率都是 1/2,所以将第一次正面朝上的概率与第二次正面朝上的概率相乘所得出的结果就是连续两次正面朝上的概率,这从数学角度来讲是没有问题的。Meadow 当时也是这样计算的。

引发 SIDS 的原因还不确定,但一个很重要的影响因素是孩子所处的环境(比如家里是否有人吸烟和饮酒)。这意味着,如果一个家庭发生过一起 SIDS,那么这个家庭发生第二起 SIDS 的概率就会远大于 1/8543,因为这些孩子的生活环境和遗传基因都是相同的。也就是说,第一起死亡事件会向我们透露第二起死亡事件发生的概率。这个案例和一名演员获得两次奥斯卡金像奖的情况非常相似。金像奖并不是随机颁发的,演员第一次得奖时具备的品质(才华、知名度、人脉)会提高他再次得奖的可能性。

这就是 Clark 一案的症结所在。在这个案子中,两起事件并不是相互独立的,可能还是共同的原因引发的。因此,不能通过简单的乘法来计算这两起事件发生的概率。相反,在计算第二起事件发生的概率时,应该考虑到第一起事件的发生。所以我们需要知道的是,在一个已经发生过一起 SIDS 事件的家庭中,发生第二起SIDS事件的概率。本案中的概率在计算和使用方面都存在十分严重的问题,为此,被告在第一次上诉时请来了一位统计学家作为专家证人,皇家统计学会还专门写了一封信表达了他们对这个案件的关心。2

不过此案的问题并不仅仅是误算概率那么简单。在整个案件中,检方试图将事件(即这两起SIDS死亡事件)发生的这七千三百万分之一的概率等同于 Clark 无罪的概率。这种错误的推理将事件发生的概率当成了被告有罪或者无罪的概率,这就是我们所说的检察官谬误。3

我们知道,一个几乎不可能发生的事件真的发生了。一个家庭中发生两起 SIDS 死亡事件的可能性很小,但是一个家庭中两个婴儿都夭折的可能性也很小。人们不单单会考虑 SIDS 这一解释是否合理,更重要的是,他们会将其与关于这个事件的其他解释进行比较。因此在这个案件中,最好将同一个家庭中两个孩子都被谋杀(检方的假设)的可能性与同一家庭中两个孩子都患了 SIDS 的可能性进行比较。

一个家庭中两个孩子都死于 SIDS 的概率与这两个孩子都感染的概率是不同的。关于这个案件我们还有其他的证据,比如物证和犯罪动机等。必须将这些证据与概率结合起来看(比如说,一个人如果没有犯罪动机、没有作案机会或者没有行凶武器,那么他杀人的概率肯定要低于总谋杀率)。4

最后,无论一件事情发生的概率有多低,只要尝试的次数足够多,最后一定会发生。Clark 一案中,那个误算出来的极低的概率(七千三百万分之一)比中百万大博彩的概率(二亿五千八百万分之一)还要高三倍多。一个人中大奖的概率是极低的,但是如果我们说某个地方的某个人会中大奖,这个概率又如何呢?那就高得多了。这就说明,仅通过概率来判断一个人的清白一定会导致一些冤案。这是因为虽然对某个特定的家庭来说,发生这种事件的可能性很小,但是世界上有两个孩子的家庭有上百万个,这种事件总会在某个地方的某个家庭发生。

2003 年 1 月,Clark 第二次上诉时终于翻案。然而,那时她已经在监狱服刑三年了。


为什么 Clark 案会成为因果推理失败的重要案例呢?尽管此案在计算概率的过程中存在很多问题,但最根本的原因是,此案试图用一个事件发生的概率来支撑某个特定的因果结论。“这只是巧合而已”“这个概率有多大”,当你在说服别人相信某个因果关系时,是否也说过这样的话呢?生活中经常有这样的推理:公司来了一名新员工,而同一天你的订书机不见了;一名巫师知道你最喜欢的女性亲属的名字以“M”开头;两名重要人证记得那名嫌犯穿的是一件红色法兰绒衬衫。但是,如果因某件事情不大可能发生,而说其唯一合理的解释就是因果关系,那一定是错误的。前面已经说过,一个不大可能发生的事件在某个人身上发生的概率也许极低,但是在某个地方发生的概率却不低。除了会造成冤案以外,错误的因果推理还可能会带来其他严重的后果,比如将大量的时间和精力浪费在绝不可能起作用的药品上,或者制定一些无用的、代价高昂的公共政策。

本书的目的是提高读者的因果推理能力。严谨的因果思维是指质疑假设、衡量证据、分析各种说辞,以及辨别我们无法得知事情发生原因的情况。有时我们可能无法获得足够的信息来建立因果联系,有时我们获得的信息可能并不是我们所需要的,但重要的是能够认识到这些问题,并与其他人就这些问题进行交流。通过阅读本书,我希望读者至少能够对他们所听到的各种因果推论多一些质疑(我们将讨论在因果推论中需要注意哪些危险信号,以及可以提出哪些问题来衡量这些推论),但首先我们会教大家如何寻找事件发生的原因、如何为因果关系提供强有力的证据,以及如何使用因果关系来指导我们日后的行为。

1.1 何为原因

试着花点时间,给“原因”下个定义。

如果你与上我的因果关系推理课的学生一样,那很可能定义下到一半就开始用各种可能的异议打断自己了。也许你用了“绝大多数时候”或“但并不总是这样”或“只有……”这样的字眼来限定自己的定义。而且你的定义很可能包括一些特征,比如:原因会导致某种结果、会使某种结果更有可能出现、具有产生某种结果的能力,或者会形成某种结果。这些特征体现了人们的一种普遍想法:事情的发生都是有原因的,否则它就不会发生。

尽管这种想法并不适用于所有情况,但在本书中,“原因”一词一般是指:它使某种结果更有可能出现,并且没有它某种结果就不会出现或者无法出现,或者说它能够在适当的环境下产生某种结果。

“原因”最早的一种定义来自亚里士多德,他认为原因是用来回答“为什么”的。5所以,如果我们问为什么某件事是这样的,人们可能会解释这个现象是如何产生的(比如水加热后会产生蒸汽)、这个事物的成分是什么(比如氢气和氧气结合会形成水)、这个事物是什么样的(比如椅子的本质就是高出地面的、有靠背的、用来让人坐的东西),或者为什么要做这件事(比如疫苗是用来预防疾病的)。然而,在寻找原因的时候,我们想了解的是为什么发生的是这件事而不是那件事。

尽管继亚里士多德之后还出现了其他里程碑式的成就(比如 13 世纪阿奎奈的贡献),然而真正的巨大飞跃却发生在文艺复兴末期的科学革命时期。在这一时期,伽利略、牛顿、洛克等人都取得了巨大成就,但是真正为当今因果关系思维和寻找因果关系的方法论奠定基础的是18世纪的大卫·休谟。6这并不是说休谟做的一切都是对的,也不是说所有人都赞成他的观点甚至信他所信,而是说他以一种批判性的方式重新定义了这个问题。

休谟不单单提出了“是什么使得某事成为了原因”,而是将这一问题一分为二:何为原因?如何才能找到原因?更重要的是,休谟没有去寻找能够区别原因与非原因的特征,而是从本质上将二者的关系提炼成了经常性事件。也就是说,我们通过经常性地观察事件发生的规律来了解因果关系,而且也只能通过经历这些有规律的事件来了解原因。

蚊虫叮咬是传染疟疾的必要前提,但春季冰淇淋小贩的突增却不是天气变暖的必要前提。然而,我们无法仅通过观察就找出经常性事件(天气/冰淇淋小贩)与必要性事件(蚊子/疟疾)之间的差异。只有在出现反例时,比如天气已经变暖了,而冰淇淋摊位却并没有增加,我们才能了解到冰淇淋小贩并不是气温变化的必要条件。

我们想当然地认为原因发生在结果之前,而不是在结果之后或与结果同时发生。这一点我们会在第4章借用物理学中同时性因果关系的例子来进一步讨论。此外,我们还需关注一些原因并没有在结果之前发生的情况。具体来说,我们所观察到的事件发生的时间也许并不忠于实际上事件发生的时间或事物之间的联系。开枪时,我们先看到的是枪火,然后才会听到巨大的响声。因为我们总是先看到枪火,再听到枪声,所以可能会认为是枪火引起了枪声,但实际上枪火和枪声都是开枪引起的。只有研究了这两个事件发生的共同原因,我们才能理解这种规律性。

很多情况下,我们可能无法在事件真正发生之时对其进行观察,所以即使有些事件其实是有先后顺序的,但它们看起来也好像是同时发生的。这种情况经常出现在病历中:病人诉说一系列症状,然后医生将这些症状记在相应的药物旁边。看起来似乎症状、诊断和处方是同时发生的(因为它们都是在看医生的时候被记录的),即便药物是在症状出现之前服用的(正是因为用药出现了症状才去看医生的)。时间也有可能是错误的,因为数据并不是在事件发生时收集的,而是事后收集的。如果我问你上次头疼是什么时候,除非你专门做了记录,或者是你最近才头疼过并且记忆犹新,否则你回答的时间可能并不是真正准确的时间。而且事件发生的时间越久,你的记忆就越不可靠。7然而,要想判断一种药物是否真的有副作用,事件发生的先后顺序是最关键的信息之一。

休谟不仅要求原因在时间上早于结果,还要求原因和结果在时间和空间上的距离都要相近(相邻)。如果它们在时间和空间上差得太远,那我们将很难发现它们之间的因果关系,因为很多其他因素可能会掺杂其中并对结果产生影响。假设一个朋友借用了你家的咖啡机,在她归还后的第三个月你发现机器坏了,这时你就很难将责任归咎于你的朋友。但如果她归还机器的时候你就发现机器坏了,那就很容易将责任归咎于她了(事实上,心理学实验也通过让人们根据两个事件发生的不同时间差来推理因果关系,证实了这一现象8)。同样,如果一个人距离书架几英尺远,而另一个人离书架的距离比他要近得多,这时一本书从书架上掉下来了,那么站得近的那个人更可能是引起书本掉落的原因。类似地,台球杆击中台球之后,台球立即开始在球桌上滚动,这使得台球与球杆的联系明显多了。

休谟要求原因和结果在时空上具有邻近性,然而有些因果关系却并不符合这一要求。这就限制了该理论的适用范围以及我们进行因果推理的能力。比如说,某种因素的缺乏会导致某种结果,就像缺乏维生素C会导致坏血病。这一因果关系就不符合休谟的邻近性要求。如果心理状态(比如信念或意图)也能作为原因的话,那么我们就又得到了一种因果关系,这种因果关系的因果之间没有任何物理上的联系。比如说,学生做作业可能是为了得高分,但是这种得高分的欲望和做作业的行为之间并没有物理上的联系。还有一些时间跨度很长的因果事件,比如因环境因素而导致的健康问题。有时即使这些事件之间是有紧密联系的,我们可能也不会注意到这些联系。9

按照休谟的理论,如果我们多次在看到有人按蜂鸣器之后听到声响(经常性联系),就会由此推断按蜂鸣器会导致这种声响。之所以如此推断,是因为我们看到人的手指接触到了(空间邻近性)按钮,而接触按钮的行为发生在声响之前(时序性),而且在手指接触按钮后几乎立即(时间邻近性)产生了声响。相反,如果这两件事之间有很长的延迟,或者这两件事同时发生,或者蜂鸣器并不是每次都会发出声响,那我们就不能做此推断了。我们不能说按下按钮是发出声响的必要条件,只能说我们多次看到这一事件。关于这方面的知识还有很多,我们将在第5章详细讨论。在此引用这个案例主要是为了区分:(1) 产生某种结果的必要条件和伴随条件;(2) 事物之间的潜在关系是什么,以及我们能够通过观察学到些什么。

值得注意的是,并不是所有人都赞成休谟的观点,尤其是康德。众所周知,康德不赞成休谟把因果关系简化为规律,他认为必然性是因果关系的基本特征,而且由于我们无法凭经验推理出事物之间的必然联系,也就无法通过观察归纳出事件发生的原因。相反,他认为我们可以用一种先验知识去阐释我们所观察到的因果关系。10


尽管大部分有关因果关系的定义都是基于休谟的理论建立的,但是没有任何一个定义能够包含所有可能出现的情况,每一个定义都有其他定义所没有的例外情况。比如说,某种药物可能只会在个别患者身上出现副作用(所以我们不能假定某个原因必然会产生某种结果);安全带一般可以防止交通事故中的死亡事件,但在有些情况下却可能会引发死亡事件(所以我们需要想到有些因素在不同环境下可能会产生不同的结果)。

这个问题常被归结为:我们应该将原因视为这个世界的基石或原始力量(这种东西无法简化为任何定律),还是我们强加给事物的一种结构?人们对因果关系的方方面面都存在不同的见解,这一问题也不例外(人们甚至对“某些特定的理论是否能与因果实在论的概念兼容”也各执己见)。有些人认为,原因如此难找,我们根本不可能找到,甚至觉得那些物理学定律都比原因有用得多。也就是说,他们认为“原因”只是“引发”“推动”“抵制”“阻止”这类词的简约表达,而不是一个基本的概念。11

因果关系在日常生活如此重要,但在哲学上却没有一个公认的关于因果关系的理论,也没有什么万无一失的计算方法能帮助我们准确找到因果关系,这让人有点惊讶。但更棘手的是,由于人们对“原因”的定义不同,所以同一情况下,人们可能会将不同的因素视为事件发生的原因,但事件的真相可能并没有人知道。

比如说,鲍勃遭遇了抢劫,而且劫匪想要杀人灭口。但在抢劫的过程中,鲍勃心脏病突发,随后死亡。我们可以将鲍勃的死因归咎于生理机制(心脏病发作),并进一步追溯到心脏病的根源——遗传基因,这种基因大大增加了心脏病突发致死的概率。或者将鲍勃的死因归咎于抢劫事件,因为如果没有遭遇抢劫,鲍勃的心脏病就不会发作。这两种死因都解释得通,我们无法立即搞清楚哪个解释更合理,或者它们只是对一个事件的两种分析。此外,不要试图为事件找出某个唯一的原因。也许是心脏病发作和抢劫事件共同导致了鲍勃的死亡,这两个事件的影响是不可分割的。在第 8 章和第 9 章中,我们将再次分析这两件事对鲍勃的死亡所应承担的责任,并研究一些事件发生的原因(比如为什么会爆发某场战争)以及某些政策是否有效(比如禁止在酒吧吸烟的政策是否改善了纽约市的人口健康状况)。

尽管原因不易寻找又难以界定,但也不是毫无希望。答案并不像人们想象的那么清楚明了(我们没有神奇宝盒,不能从这头输入数据然后等它自动输出原因,并且输出绝对正确、万无一失),我们的大部分工作只是找出何时该用何种方法。关于原因的定义有很多不同的观点,这些观点给我们提供了很多种方法,这些方法或多或少都有点用,只是工作原理和适用的情形有所不同。如果能了解其中两种或以上的方法,并且了解它们之间是如何互补的,那么我们就能以多种方法来考察同一种情形了。有些方法适用的情形可能比较多(或者适用于对我们而言很重要的一些情形),但是请记住,没有哪种方法是十全十美的。尽管寻找原因很难,但一定要坚持不懈地去寻找正确的原因。如果能够坦然接受我们可能会犯错的事实,并且明确在何时能够找到什么,那么我们就可以不断地尝试,看看这些方法都能适用于哪些情形,至少能准确地描述出我们所使用的方法以及所得到的结果。本书重点阐述了各种方法的优势和局限性,而不是向读者推荐某些方法,因为这些方法都不是绝对的。数据不全时可能这种方法更有效,事件发生的时间很重要时可能那种方法更有效,总之,具体使用哪种方法要视情况而定。

因果思维对科学、法律、医学和其他领域(很难想出有哪一个学科不关心或者不需要找到事件发生的原因)都至关重要,但其缺陷之一在于,用来描述原因的语言和用来寻找原因的方法可能过于专业化,并且让人感觉它只局限于特定领域。你可能觉得神经学和经济学之间没什么共同点,也不认为计算机科学能够解决心理学问题,但这些不过是新兴的、跨学科研究因果关系的一部分领域。然而,所有的领域在哲学上的起源都是一样的。

1.2 怎样才能找到原因

哲学家们长期以来一直在关注“原因究竟是什么”这个问题,但是界定因果关系的主要哲学方法以及我们今天用来从数据中寻找因果关系的计算方法,却直到 20 世纪七八十年代才出现。我们不知道将来是否会出现一个公认的因果关系理论,但我们有必要了解这个广泛使用的概念的含义,只有这样才能更清晰地对它进行思考和讨论。我们在因果关系研究领域所取得的任何进步都会对计算机科学以及其他领域产生广泛的影响。假如原因不仅是一种事物,那么我们可能就要用多种方法去寻找它、描述它,并且用不同的实验来验证人们关于原因的直觉。

自休谟以来,因果关系研究领域所面临的主要问题是:我们该如何区分包含因果关系的事件和不含因果关系的事件。20 世纪六七十年代出现了三种主要的研究方法,都建立在休谟的理论基础之上。单一的原因不太可能引起某种结果,所以 John L. Mackie 提出了一个理论,他认为某种结果的产生是由一系列条件共同导致的。12这一理论很好地为我们排除了不包含因果关系的事件,并且解释了原因的复杂性。类似地,许多因果关系都包含偶然性因素,在这类情况下,原因可能只是提高了某种结果出现的可能性,但并不保证它一定会出现。针对这一特征,Patrick Suppes 及其他研究者们提出了概率法。13休谟的理论还促成了反事实推理法:通过假设导致某件事的原因不存在,事情的发展会有何不同,从而来界定这一事件发生的原因。14比如说,某个人是赢得一场比赛的主要原因,因为如果没有他,这场比赛就不会赢。

哲学上的这些方法似乎已经脱离了寻找因果关系的计算方法,但这些不同的因果思维却能为我们提供许多方法去寻找因果关系的证据。对于计算机科学家来说,人工智能的梦想之一就是实现自动推理。要做到这一点,关键之一在于找到事件发生的各种原因,并利用它们来形成各种解释。这项工作在现实生活中得到了广泛的应用,从机器人的生产(机器人需要使用现实世界的各种模型来计划自己的行为,并预测这些行为的结果)到广告宣传(亚马逊如果知道你点击“现在购买”按钮的原因,就能向你推荐更适合你的商品)再到医疗服务(重症监护病房里的患者的身体状况突然发生变化时,会向医生发出警报)。然而,要想制定出算法(解决问题的一系列步骤),我们需要对问题进行精准的描述。要想设计出能够找到原因的计算机程序,我们需要对原因进行定义。

20 世纪 80 年代,以 Judea Pearl 为首的计算机科学家们向人们证实了,以概率来定义因果关系的哲学理论可以用图表来表示。这些图表可以向人们直观地呈现出事件之间的因果关系,并为人们提供了针对不同变量之间的数学关系进行编码的方法。更重要的是,他们还引入了一些根据先验知识来构建图表以及从数据中寻找它们的方法。15这就为我们带来了很多新的问题。如果因果事件之间存在可变延迟,那我们还能找到因果关系吗?如果因果关系本身会随着时间而发生改变,那我们能从中学到什么?计算机科学家们设计了一些能够自动寻找事件的解释的方法,以及测试这些解释是否符合实际的方法。尽管我们在过去的几十年里取得了很多成就,但是依然面临着许多挑战,尤其是我们对数据的依赖程度已经越来越高。我们现在所面临的不是那些为了研究而精心挑选出来的数据集,而是海量的、不明确的、根据观察得到的数据。想象我们正面临这样一个简单的问题:根据 Facebook 数据了解人们的人际关系。第一个困难是,并不是所有人都使用 Facebook。所以,我们只能通过 Facebook 研究一部分人的人际关系。这部分人也许并不能代表所有人,也不能代表你感兴趣的某一类人。此外,人们使用 Facebook 的方式也不尽相同。有些人从来不会显示他们的人际关系,有些人可能会显示虚假的人际关系,还有些人可能不会及时更新他们的个人信息。

在因果推理过程中,尚未解决的关键问题包括:从不明确的或缺少变量和未经观察(如果我们没有观察吸烟这个变量,是否会错误地把其他因素当作引起肺癌的原因)的数据中寻找事件的原因,寻找事件之间的复杂关系(如果这个结果是一系列事件共同导致的呢),以及寻找偶发事件的原因和结果(是什么导致了 2010 年股市的闪电崩盘)。

有趣的是,电子健康记录等海量数据正将流行病学与健康计算工作相结合,以了解影响人口健康的因素。我们的研究是先了解影响健康的因素,然后利用这些知识来指导公共健康干预措施,而大量人口的长期健康数据(他们的诊断、症状、用药情况、所接触的环境等)对研究有莫大的帮助。我们面临着双重挑战——研究设计(流行病学的一贯研究重点)并从大型数据集(计算机科学的主要焦点)中进行高效且准确的推理。由于流行病学的研究目标比较特殊,所以它在设计方法以寻找原因方面有着很长的历史,从 James Lind 随机检查水手来寻找坏血病的病因16,到 John Snow 发现被污染的水泵是导致伦敦霍乱疫情的一个原因17,到Koch提出的假设在细菌和肺结核之间建立了因果关系18,再到 Austin Bradford Hill 将吸烟和肺癌联系在了一起,并为人们评估因果关系提供了一些指导原则。19

医学研究也比以前更加依赖数据了。各大医院和私人诊所都在将病人的病历从纸质图表转换为电子格式,但这种转换工作必须满足有意义的使用标准(比如能够利用数据来帮助医生诊断病情),它所带来的好处要能够抵消转换工作所消耗的成本。然而要想满足这些标准,很多工作都要进行海量的数据分析,这就需要使用计算方法。

神经科学家可以通过脑电图描记器和功能磁共振成像仪来收集有关大脑活动的海量数据,并利用计算机科学和经济学的研究方法来分析这些数据。脑电图中的数据本质上就是大脑活动的量化数字记录,这种记录在结构上和股市数据差不多(股市数据可以告诉我们随着时间的变化,股票的交易价格和交易量是多少)。Clive Granger 提出了经济时间序列中的因果关系理论(他因此获得了诺贝尔奖),这一理论不仅适用于经济学,还被应用于其他生物学数据,如基因表达阵列(用来测量随着时间的变化,基因的活跃程度如何)。20

经济学中的一个关键挑战是,判断执行某个政策是否能实现预期的目标。这与公共健康领域所关注的问题十分类似,比如判断是否可以通过减少苏打水的瓶身容量来减轻肥胖症问题。这个问题也是我们所面临的最难解决的问题之一。在很多情况下,所颁布的政策本身就会改变社会的体制。我们会在第9章看到这样一个例子:田纳西州最初做了一个缩小班级规模的实验,于是加州用一种十分仓促的方式也缩小了班级规模,但这两个事件的结果截然不同。如果所有条件都不变的话,那么一项干预政策可能会带来积极的影响,但也可能会改变人们的行为。如果要求人们系安全带的法规会导致人们开车时更加鲁莽,那么我们就很难了解这个法规的影响究竟是好是坏,以及在交通事故死亡率不降反升的情况下,到底是要废除这一法规还是进一步完善它。

对于心理学家来说,理解因果推理(包括它的发展过程,人与动物之间的差异,以及它何时会出错)是理解人类行为的关键之一。经济学家也想知道人们为什么会做出各种行为,尤其是在做决策的过程中。最近,心理学家和哲学家共同利用实验方法来研究人们对因果关系的直觉(这属于实验哲学的研究范畴21)。一个很关键的问题在于,要理顺因果关系和道德评判之间的关系。如果有人在资助申请中杜撰数据并因此获得了资助,而其他诚实可敬的科学家们却因为资助资金有限而没有获得资助,那么我们能说是那个欺骗者导致他们没有获得资助吗?现在有两个问题:应该怪罪那个欺骗者吗?如果所有人都存在欺骗行为,那么我们对这件事的看法是否会发生改变呢?要了解人们是如何做出因果关系判断的,这不仅能帮助我们更好地理解人们的思维方式,还能帮助我们处理一些实际问题,比如解决分歧、提升教育和培训水平22以及保证陪审团的公正性。本书会告诉大家,虽然我们无法消除所有导致偏见和错误的因素,但可以更准确地发现这些因素并了解它们可能会带来的影响。

1.3 为什么需要原因

原因难以界定又不易寻找,那么它们对我们究竟有什么好处呢?我们又为什么需要它们呢?有三件很重要的事只有在清楚原因的情况下才能做到,或者做到最好,这三件事是:预测、解释和干预。

首先,假设我们想要预测谁会赢得美国总统大选。专家们找到了各种规律,比如共和党人必须赢得俄亥俄州的选票才能赢得大选;自富兰克林·罗斯福之后,没有任何一位总统能够在失业率超过7.2%23时获得连任;美国从来没有女性总统(至少在我写作本书时是这样的)。24然而这些只是规律而已。我们可以在历任总统身上找到很多这样的规律,但是我们无法从中得知他们为什么会赢得大选。人们是根据失业率投票的吗?还是说失业率只是间接反映了国家形势和经济状况,暗示人们在失业率高的时候要寻求变革?更糟糕的是,如果我们发现的这些规律只是巧合,那么它们最终都会被打破。而且,这些数据是从很小的数据集中得出的;美国历史上只有44位总统,其中连任的总统还不到一半。

这就是黑盒问题:我们把数据输入黑盒子,然后从中得出一些预测,但是黑盒子不会对这些预测做出任何解释,也不会告诉我们这些预测为什么值得信赖。如果我们不知道这些预测为何会成真(为什么赢得某个州的选票就能赢得大选),也就无法预料它们的失败。如果我们知道俄亥俄州能够“决定”一场大选的原因是这个州的人口特征十分具有代表性,而且这个州从来不专属于某一个政党,那么我们就能由此预测。如果由于移民人口导致俄亥俄州的人口组成发生了巨大变化,那么之前的预测——它对大选有决定性作用——也就不复存在了。如果这个州只是反映全国总体趋势的一个间接指标,那还可以通过全国民意调查来获得更直接、更准确的预测。一般来说,与相关性相比,原因能够为我们提供更为可靠的方法来预测事件的结果。

再举一个例子,比如说某种基因的变异导致了运动耐量的提高和免疫反应的增强。然后我们可能会发现,运动耐量的提高对人体免疫反应来说是个好指标。然而,运动耐量的高低变化只是一个非常粗略的估计,因为除了基因突变以外,还有很多其他因素(比如充血性心力衰竭)也会导致运动耐量的变化。因此,只根据运动耐量进行诊断可能会导致很多误诊,错误地夸大或低估病人的病情。更重要的是,一旦了解到基因变异会引起运动耐量和免疫反应的双重提高/增强,我们就能获得两种测算风险的方法,并且能够避免收集过多的测量数据。既然运动耐量只是反映了基因的变化,那么我们就没有必要对这两者都进行测试。但值得注意的是,如果基因测试极易出错的话,那么运动耐量的测试数据也许能为我们提供确凿的证据。还有一点,将患者送到运动生理学实验室去测试他的运动耐量的成本,可能要比单独测试某一种基因变体高得多。然而,我们无法将测试方法的直接性和它所花费的成本进行比较(如果运动耐量测试的成本比基因测试低得多,那我们可能更倾向于先测试运动耐量,尽管这种测试方法是间接的),除非我们知道这些因素之间潜在的因果关系。因此,即便我们只想预测谁会赢得大选,或者某个病人患某种疾病的风险有多大,只要了解了那些因素为什么具有预测作用,就能够提高决策的准确性并降低决策的成本。

现在,我们想知道为什么有些事件是相互关联的。视力模糊和体重下降之间有什么联系?如果只知道这两个症状经常相伴出现,是无法得出更多信息的。只有找到导致这二者的共同原因——糖尿病——我们才能理解它们之间的关联。很明显,在这类事件中,我们要找到事情发生的原因,而这也是我们一直在做却极少深入研究的事。

也许你曾看过有关“食用红肉的人群死亡率更高”的研究,但如果你不知道其中的原因,那这些信息就是不可用的。也许吃红肉的人喜欢饮酒或不爱运动,这些都是影响死亡率的因素。而且,即便死亡率的升高真的是红肉引起的,与其他因素无关,那也要根据具体情况来决定用何种方法来降低这种风险。如果死亡率的升高是不卫生的烧烤方式造成的,那我们可以换一种烹调方法;如果是吃红肉本身引起的,那我们就只能让自己成为素食主义者了。我们想知道的不仅是红肉是否与死亡率有关,而是红肉是否真的会提升死亡率。我之所以格外强调这种说法,是因为报纸的科学版块几乎每周都会写一些与饮食和健康相关的内容,比如鸡蛋能引发/预防各种病痛,咖啡会提高/降低死亡的风险。这类研究有时可能不仅会提供某件事与某类人群之间的相关性,还会提供一些其他证据,但是,所有这类研究都值得怀疑,我们要对每一个细节进行批判性的考证,尤其是要用这些结论来指导各种政策和行为的时候(第 9 章将进行讨论)。

有些时候,我们要去解释一些事件发生的原因。你上班为什么迟到了?某人为什么生病了?为什么一个国家入侵了另一个国家?在这些情况下,我们想知道是谁或者是什么因素引发了某个事件。迟到与交通有关;随着年龄的增长,人们会患各种疾病;很多战争都是由于人们在意识形态上存在分歧。但这些并不能告诉我们上述事件发生的原因。你迟到可能是因为汽车抛锚了,Jane 生病可能是因为食物中毒,某场战争可能是领土或资源争端引起的。

找到事件发生的根源很重要,它不但会影响政策的制定(如果 Jane 生病的原因是餐厅的卫生条件太差了,那她可以不再去那家餐厅吃饭,但无须避讳那天所吃的食材)与责任的归属(谁该为 Jane 的病情负责),还会影响人们对某件事的反应。很多疾病的症状可能与服用治疗该疾病的药物后产生的症状相同。比如说,慢性肾病会导致肾衰竭,但在极少数案例中,治疗慢性肾病的药物可能会对肾造成同样的损伤。如果门诊医生看到患有肾病的人同时也在服用会导致肾损伤的药物,那他就需要明确这个病人的肾病是否是由服用的药物导致的,这样才能为病人制定正确的治疗方案。虽然知道了服用某些治疗肾病的药物也可能导致肾损伤,但医生无法仅根据这一点就确认某个病人是否属于这种情况。只有在确认病人是否属于这种情况后,才能决定是否要让病人停止服用这种药物。

因果关系最重要的用途是可以用来干预某些事情的发生。我们不仅想知道某些事件为什么会发生,更想利用这些信息来预防或促成某些结果的产生。你可能想知道如何通过改变饮食习惯来改善身体的健康状况。需要服用维生素吗?要坚持吃素吗?还是要戒掉含碳水化合物的食物?如果这些干预措施并不能带来你想要的结果,那就没必要做这些费时又费力的改变。同时,我们还需要考虑这些干预措施的成效如何。也许你听说某个节食方案的减肥成功率是 100%。在基于这句话做出任何决策之前,你应该先了解一下这个节食方案究竟帮助人们减掉了多少体重,不同的人减掉的体重差是多少,这个节食方案的效果和其他节食方案相比有何差别(仅通过自己有意识地控制饮食也是可以减肥的)。我们既要评估已经采取的干预措施是否有效(纽约市在发布食物的卡路里值后,是否改善了市民的健康状况),也要预测将来可能会采取的干预措施的效果(如果减少快餐中的钠含量,会出现什么情况)。

政府部门必须知道他们的政策会对民众产生什么样的影响,并且必须制定出能满足民众需求的政策。比如,研究人员发现含钠量高的食物与肥胖症有关联。于是,立法人员决定颁布一项法案,旨在减少餐厅食物和包装食品的含钠量。如果含钠量和肥胖症之间的唯一联系是,高热量的快餐食品导致了肥胖症,而这些食品又正好含钠量高,那么这项法案将不会产生任何作用。人们依然会购买快餐,而快餐才是一开始就应该关注的问题。我们必须保证我们的干预措施针对的是真正影响结果的原因。如果我们只干预了一些与结果相关的因素(比如通过禁止使用火柴来减少死于因吸烟导致的肺癌的人数),那这样的干预措施是不会有效果的。

如果干预措施还有副作用的话,那么情况就更加复杂了,这一点我们后面再讨论。因此,我们不仅要知道造成某个结果的原因,还要知道这个结果会带来什么影响。比如,增加运动量会导致体重下降,但是“补偿效应”又会导致人们去摄入更多的热量,甚至比他们消耗掉的热量还要多(于是他们的体重不降反升)。所以我们要做的不是去寻找个体变量之间的单一联系,而是要对事物间各种相互关联的关系有一个更为宏观的认识。

1.4 接下来……

人们为什么会在不相关的事件之间看到关联性?陪审团如何评估犯罪的原因?我们如何通过实验来得知某个病人应该服用哪种药物?随着我们对数据和算法的依赖程度越来越高,了解因果关系已经成为一项必须掌握的技能。我们不仅需要利用这一技能从数据中提取有用的信息,还要用它来指导日常生活中的各种决策。即使你的工作并不包括做研究或分析数据,因果推理的各种潜在用途也会对你产生影响,比如你要与别人分享什么样的个人信息,以及与哪些人分享。

为了更加准确地寻找和使用原因,我们需要知道因果推理过程中的心理活动(我们是如何感知并推理事件发生的原因的),还要知道如何评估我们手中的数据(不管是通过观察还是实验获得的),以及如何利用这些知识进行决策。尤其是要考察所收集的数据(以及我们操控这些数据的方式)是如何影响我们从中得出的结论的。在本书中,我们将探索如何利用各种论据来支持或反对某种因果关系(既是正方也是反方)、如何利用因果关系中的信号来超越那些间接的证据,以及如何准确地找到并理解这些信号。

注释

  1. 想要了解 Meadow 所用的数据,参见 Fleming 等(2000)。想要了解 Meadow 对使用这一数据的评论,参见 Meadow(2002)。
  2. Meadow 因为在证词中使用了这一数据,后来被判渎职罪,并被吊销了医生执业资格,导致他不能再行医(后来他通过上诉得以恢复执业资格)。
  3. 参见 Thompson 和 Schumann(1987)。还有一个著名的案例是 Lucia de Berk 案。Lucia de Berk 是荷兰的一名护士。像 Clark 一样,她一开始也被误判为有罪,后来又被宣布为无罪。De Berk 护理过很多意外死亡的病人,一名专家证人计算了这一情况发生的概率,得出的结果是这一情况完全是巧合的概率只有三亿四千二百万分之一。了解更多关于 Lucia de Berk 案的信息,请参见 Buchanan(2007)。正如 Clark 案一样,这个数据被等价为 De Berk 无罪的概率。检方认为这一概率发生的可能性如此之小,所以它一定不可能发生。
  4. 值得注意的是,SIDS 只是导致婴儿猝死的原因之一。事实上,在 Clark 一案中,有重要证据表明其中有一个婴儿患有炎症,并且这一炎症可能会对婴儿造成生命危险。然而,参与该案的病理学家(该病理学家后来被判严重渎职罪,并被禁止行医三年)在庭审中并未公布这一证据。
  5. 亚里士多德关于因果关系的论述,参见亚里士多德(1924,1936)。想要了解古希腊学者关于因果关系的论述,参见Broadie(2009)。
  6. 休谟(1739,1748)。
  7. 人们关于时间的记忆具有两个特征:不确定性和特异性,关于这两者之间的关系,参见 Hripcsak 等(2009)。
  8. 具体案例参见 Lagnado 和 Speekenbrink(2010)。
  9. 注意:休谟一定不会赞成这样的评价。他认为如果原因和结果之间存在时间或空间上的间隔,那人们就会发现一系列将原因和结果连接在一起的中间原因。
  10. 参见 Kant(1902,1998)。
  11. 参见 Cartwright(1999,2004)和Skyrms(1984)。
  12. Mackie(1974)。
  13. Suppes(1970)。
  14. Lewis(1973)。
  15. 关于这些内容的专业性介绍,参见 Pearl(2000)和 Spirtes 等(2000)。
  16. Lind(1757)。
  17. Snow(1855)。
  18. Koch(1932)。
  19. Hill(1965)。
  20. Granger(1980)。
  21. 想要了解更多关于实验哲学的信息,参见 Alexander(2012)、Knobe 和 Nichols(2008)。
  22. 当判断因果关系的过程中存在多种文化差异时,情况更是如此。比如说,有些人可能会将技能看成是一种天生的能力,人们要么有这样的技能,要么没有,而其他人可能会认为根据环境和人们的努力程度,一个人的技能是可以改变的。
  23. Appelbaum(2011)。
  24. 有一幅很棒的漫画向我们阐释了各种主观的规律,名叫“Electoral Precedent”。

目录

  • 版权声明
  • 本书赞誉
  • 前言
  • 第 1 章 引子
  • 第 2 章 心理
  • 第 3 章 相关性
  • 第 4 章 时间
  • 第 5 章 观察法
  • 第 6 章 计算法
  • 第 7 章 实验法
  • 第 8 章 解释
  • 第 9 章 行动
  • 第 10 章 展望
  • 致谢
  • 参考文献
  • 关于作者