作者:朱迪亚·珀尔
禁止言论就意味着禁止了思想,同时也扼杀了与此相关的原则、方法和工具。
今天,这种以数据为中心的观念仍然阴魂不散。我们生活在一个相信大数据能够解决所有问题的时代。大学中“数据科学”方面的课程激增,在涉足“数据经济”的公司中,“数据科学家”享有极高的工作待遇。然而,我希望本书最终能说服你相信这一点:数据远非万能。数据可以告诉你服药的病人比不服药的病人康复得更快,却不能告诉你原因何在。也许,那些服药的人选择吃这种药只是因为他们支付得起,即使不服用这种药,他们照样能恢复得这么快。
与30年前一样,当前的机器学习程序(包括那些应用深度神经网络的程序)几乎仍然完全是在关联模式下运行的。它们由一系列观察结果驱动,致力于拟合出一个函数,就像统计学家试图用点集拟合出一条直线一样。深度神经网络为拟合函数的复杂性增加了更多的层次,但其拟合过程仍然由原始数据驱动。被拟合的数据越来越多,拟合的精度不断提高,但该过程始终未能从我们先前提到的那种“超进化加速”中获益
当我们开始改变世界的时候,我们就迈上了因果关系之梯的更高一层台阶。这一层级的一个典型问题是:“如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?”这类问题处于因果关系之梯的第二层级,提出及回答这类问题要求我们掌握一种脱离于数据的新知识,即干预。
一个足够强大的、准确的因果模型可以让我们利用第一层级(关联)的数据来回答第二层级(干预)的问题。没有因果模型,我们就不能从第一层级登上第二层级。这就是深度学习系统(只要它们只使用了第一层级的数据而没有利用因果模型)永远无法回答干预问题的原因,干预行动据其本意就是要打破机器训练的环境规则。
第二层级中的另一个热门问题是:“怎么做?”它与“如果我们实施……行动,将会怎样”是同类问题
自此,人类发展出了一种想象从未存在之物的能力。作为这种能力的表现形式,狮人雕塑是所有哲学理论、科学探索和技术创新的雏形。从显微镜到飞机再到计算机,这些创造物真正出现在物理世界之前,都曾存在于某个人的想象之中。
正是由于具备这种稳健性,人类的直觉才以因果关系而非统计关系为组织的核心。
用类似表达式P(Y|X)所表示的概率位于因果关系之梯的第一层级,其不能(靠自己)回答第二层级或第三层级的问题。任何试图用看似简单的第一层级的概念去“定义”因果关系的做法都必定会失败
现在我必须坦白一件事:我也曾犯过同样的错误。我并非一直把因果放在第一位,把概率放在第二位。恰恰相反!20世纪80年代初,我开始踏足人工智能方面的研究,并认定不确定性正是人工智能缺失的关键要素。此外,我坚持不确定性应由概率来表示。因此,正如我将在第三章中解释的那样,我创建了一种关于不确定性的推理方法,名为“贝叶斯网络”,用于模拟理想化的、去中心化的人类大脑将概率纳入决策的方法。贝叶斯网络可以根据我们观察到的某些事实迅速推算出某些其他事实为真或为假的概率。不出所料,贝叶斯网络立即在人工智能领域流行开来,甚至直至今天仍被视为人工智能在包含不确定性因素的情况下进行推理的主导范式。
虽然贝叶斯网络的不断成功令我欣喜不已,但它并没能弥合人工智能和人类智能之间的差距。我相信你现在也能找出那个缺失的要素了——没错,就是因果论。是的,“因果幽灵”无处不在。
在此,我想说明的主要观点是:概率能将我们对静态世界的信念进行编码,而因果论则告诉我们,当世界被改变时,无论改变是通过干预还是通过想象实现的,概率是否会发生改变以及如何改变。
,对于向均值回归这一现象,因和果是没有区别的。
回归斜率为1表示两个变量呈完全相关,这意味着父亲每增高1英寸,这一变化都能完全地传递给儿子,使其平均身高增加1英寸。回归斜率不可能大于1,否则高个子父亲的儿子其身高会进一步高于平均值,矮个子父亲的儿子其身高会进一步低于平均值,这将使得身高分布随时间的推移而变宽。这样一来,几代后可能就会出现身高9英尺的人和身高2英尺的人了,而这与现实并不相符。因此,只要身高分布在世代相传中保持不变,回归线的斜率就不能大于1。
高尔顿提出的相关性概念首次在不依赖于人的判断或解释的前提下以客观度量说明了两个变量是如何关联的。这两个变量可以是身高、智力或者收入,它们可以是因果的、相互独立的或反因果的关系。相关性总是能够反映出两个变量间相互可预测的程度。高尔顿的弟子卡尔·皮尔逊后来推导出了一个(经过适当调整的)回归线斜率公式,并称之为“相关系数”
高尔顿以寻找因果关系为起点,最终却发现了相关性——一种无视因果的关系。这是一段颇具讽刺意味的历史。即便如此,他的著作仍留有使用因果思维的痕迹。他在1889年写道:“很容易看出,(两个器官尺寸之间的)相关性一定是这两个器官共同变异的结果,而变异部分地归于相同的原因。
但是在当下因果推断的语境下,对我们来说,最初的那个问题依然存在:根据达尔文的学说,变异是代代相传的,那么我们究竟应该如何解释总体的稳定性?
他们缺乏因果词汇,惊叹于相关性的发明,却没有注意到它带来的灾难——因果关系的死亡。
在皮尔逊的眼中,高尔顿扩展了科学的词汇。因果关系被简化为仅仅是相关关系的一个特例(在这一特例中,相关系数为1或–1,两个变量x和y之间的关系是确定的)。在《科学语法》(The Grammar of Science,1892 )中,他清晰地表达了自己的因果观:“一个特定的事件序列在过去已经发生并且重复发生,这只是一个经验问题,对此我们可以借助因果关系的概念给出其表达式……在任何情况下,科学都不能证明该特定事件序列中存在任何内在的必然性,也不能绝对肯定地证明它必定会重复发生。”总而言之,因果关系对于皮尔逊来说仅仅是一种重复,在确定性的意义上是永不可证的。至于不确定性世界中的因果论,皮尔逊更是不屑一顾:“描写两个事物之间关系的终极的科学表述,总可被概括为……一个列联表(contingency table) [6] 。”换言之,数据就是科学的全部,毋庸赘言。在这个观点中,第一章所讨论的干预和反事实的概念并不存在,因果关系之梯的最底层就是科学家进行科学研究所需的一切。
在发现高尔顿及其相关性后,皮尔逊终于找到了自己激情的聚焦点:一个他认为可以改变整个科学世界,并把数学的严谨性带入诸如生物学、心理学这样的领域的绝妙理念。他带着海盗般的使命感致力于完成这项任务。他的第一篇统计学论文发表于1893年,在高尔顿发现相关性的4年之后。1901年,他创办了《生物统计学》(Biometrika )期刊,直至现在它仍是影响力最大的统计学期刊之一(说起来不可思议,正是该期刊于1995年刊载了我的第一篇关于因果图的完整论文)
赖特所饲养的豚鼠是他整个职业生涯的跳板,也是他提出其进化理论的基石,就如同激发了查尔斯·达尔文提出进化论灵感的加拉帕戈斯群岛的雀鸟一样。赖特是这一观点的早期倡导者:进化不是如达尔文假想的那样渐进地发生,而是一种相对突然的爆发。
。这一想法对赖特来说也许很简单,但实际上是一种极具革命性的思路,因为它首次证明了“相关关系不等于因果关系”这个判定应该让位于“某些相关关系确实意味着因果关系”。
他首先根据他的英雄,卡尔·皮尔逊和弗朗西斯·高尔顿的一系列名言,证明了“因”这个词的多余和无意义性。他得出结论:“对比‘因果关系’和‘相关关系’是没有根据的,因为因果关系只是一种完全相关。”他的这句话直接呼应了皮尔逊在《科学语法》中所发表的论述。
不对吗? 从科学的角度来看,尼尔斯的批评也许不值得我们花费时间详细讨论,但他的论文对作为正在探究因果关系科学发展史的我们来说是非常重要的。首先,这段话忠实地反映了他那一代人对于因果关系的态度,以及他的导师卡尔·皮尔逊对那个时代科学思维的霸权统摄。其次,我们今天仍能听到与尼尔斯持同样立场的反对之声。
虽然我们不需要知道各个变量之间的所有因果关系,仅利用部分信息也能够得出一些结论,但赖特非常清楚地指出了这一点:没有因果假设,就不可能得出因果结论。这与我们第一章的结论相呼应:只使用从因果关系之梯第一层级的数据,你是不可能回答属于因果关系之梯第二层级的问题的。
因果假设是模型? 有时人们问我:“这难道不会引起循环论证吗?你所做的难道不正是假设你想证明的东西?”答案是否定的。通过将非常中庸的、定性的、显而易见的假设(例如,豚鼠后代的毛色不会影响豚鼠父母的毛色)与20年的豚鼠培育数据相结合,赖特得出了一个定量的,且并不显而易见的结论:后代豚鼠毛色42%的变异来自遗传。从显而易见的事实中提取非显而易见的内容并不是循环论证——这是科学的胜利,我们理当为此鼓掌欢呼。
赖特的贡献是独一无二的,因为他得出结论(42%的遗传性)所需要的信息分属于两种截然不同的、几乎不相容的数学语言:一种是图形语言,另一种是数据语言。这种将定性的“箭头指向信息”与定量的“数据信息”(完全是两门外语!)相结合的独具创新的想法简直是一个奇迹,它完全迷住了我,将我这个计算机科学的研究者引向了一个全新的研究领域。
在对尼尔斯批评文章的回应中,他写道:“作者(赖特本人)从未提出过这一荒谬的主张,即路径系数理论为因果关系的推导提供了通式。作者希望强调的是,将相关关系的知识与因果关系的知识相结合以获得某些结果的做法,与尼尔斯所暗示的从隐含的相关关系推导因果关系不是一回事。
我对赖特这段真知灼见的钦佩仅次于我对他的勇气和决心的钦佩。请大家想象一下1921年的情况:一个自学成才的数学家独自面对统计学界的霸权。他们告诉他:“你的方法是基于对科学意义上因果关系本质的全然误解。”而他反驳说:“并非如此!我的方法创造出了重要的事物,其价值超越任何你们可以创造的东西。”他们说:“我们的专家在20年前就对这些问题进行了研究,并得出结论——你的分析方法完全是无稽之谈。你所做的只不过是把一些相关关系结合起来推导出另一个相关关系而已。等你‘长大’了,你就会明白了。”而他继续说:“我不是看不起你们的专家,但事实就是事实。我的路径系数不是相关关系,而是一种完全不同的事物:因果效应。”
我在学校读到的最早的一本科学著作,其中就讲述了宗教法庭如何迫使伽利略放弃他的日心说,而伽利略又是怎样坚持己见的。他在最后的审判中曾低声为自己的信念辩护道,“但它(地球)仍在动”(“E pur si muove”)。我认为世界上没有哪个孩子在读过这个故事之后会不被他的勇气鼓舞。然而,尽管我钦佩他的坚持,我还是禁不住想,至少他还有天文观测数据可以依靠。而赖特只有一个未经检验的结论:发育因子引起的变异占比58%,而非3%。他无所依靠,除了内心的信念——路径系数能够阐释的事实是相关性所无法阐释的。而他依然选择公开宣布:“但它仍在动!
赖特完全清楚他是在捍卫科学方法和数据解释的本质。在今天,我也想给大数据、无模型分析方法的爱好者提出同样的建议。当然,我们可以尽可能地梳理出数据所能提供的信息,但我们要问的是,这样做究竟能给我们带来多大的帮助。它永远无法让我们超越因果关系之梯的第一层级,也永远无法回答“各种因的相对重要性”这种简单的问题。让我们重复一遍伽利略的那句话:“但它仍在动!”
中心极限定理是概率论的“无冕之王”,高尔顿曾盛赞它所蕴涵的宇宙秩序之美妙无可比拟,可见其对人类认知的影响是多么深远。——译者注
对于贝叶斯来说,休谟的观点很自然地引发了一个问题,有人可能会称其为福尔摩斯式的问题:需要多少证据才能让我们相信,我们原本认为不可能发生的事情真的发生了?在何种情况下,某个假设才会越过绝不可能的界限抵达不大可能,甚至变为可能或确凿无疑呢?虽然这个问题是用概率语言表述的,其含义却带有明显的神学色彩
这句话断定,人们在观察到T之后对S的信念度,永远不会低于人们在观察到T之前对“S且T”的信念度。此外,它还暗示了证据T越出乎意料,即P(T)越小,人们就越应相信它的因S存在或发生。难怪作为主教牧师的贝叶斯的朋友普莱斯认为这是对休谟的有效驳斥。如果T是一个发生概率极低的神迹(“基督复活了”),而S是一个与之密切相关的假设(“基督是上帝之子”),则当我们知道T真实发生了之后,我们对S的信念度就会大幅提升。神迹越是不可思议,在神迹发生后可以解释它为何发生的假设就越可信。这也说明了为何目击者证据给《新约全书》的作者留下了如此深刻的印象。
大多数看到她们的乳房X光检查结果为阳性的40岁女性会惊讶地发现她们其实有很高的概率并没有患病。
2009年,美国预防服务特别小组建议40岁的女性不应每年进行乳房X光检查。而上文中提到的这种感知和现实之间的冲突在一定程度上解释了人们对这一建议的强烈抗议。特别小组了解很多女性所不了解的事实:对于这个年龄段的女性检测者来说,阳性检测结果更可能是虚惊一场,而不是真的诊断出检测者患有癌症,许多女性因此产生了不必要的恐慌,并忙于寻求获得不必要的治疗。
然而,如果一名40岁的女性检测者本来就携带乳腺癌遗传基因,那么情况就会截然不同——此人在第二年会有1/20的可能性患乳腺癌,其得到阳性检测结果的概率将升至1/3。对符合此种情况的女性来说,检测提供重要警示信息的概率就要高得多了。因此,特别小组继续建议,乳腺癌高危女性仍然应该进行每年一次的乳房X光检查。
前向概率涉及的是疾病本身的性质、发展阶段或检测仪器的灵敏度,其对患病原因(如流行病、饮食、卫生、社会经济地位、家庭史)是不敏感的。逆概率P(疾病|检测)则对这些因素非常敏感。
自1950年阿兰·图灵在他的论文《计算机器与智能》中第一次提出图灵测试的挑战以来,人工智能的主导机制就一直是所谓的基于规则的系统或专家系统,它将人类知识组织为具体事实和一般事实的集合,并通过推理规则来连接两者
遗憾的是,这些方法虽然具有独创性,却有一个共同的缺陷:它们模拟的是专家,而不是现实世界,因此往往会产生意外的结果。例如,它们不能同时在诊断模式(从结果推理原因)和预测模式(从原因推理结果)中运行,而这正是贝叶斯法则无可争议的优势。在确定性因子方法中,陈述“若起火,则冒烟(具有确定度c1 )”与规则“若冒烟,则起火(具有确定度c2 )”无法被合乎逻辑地结合在一起,强行结合只能引发信念的失控,导致主观性杂质的入侵。
信息是一个方向上的条件概率和另一个方向上的似然比。
正如在链接合的例子中,给定B之后,A和C就是条件独立的
如果我们已知“名人=1”,那么才华和美貌就是负相关的,即使二者在一般人的总体数据中并不相关。甚至在更现实的情况下,即成功是美貌与才华经过某种复杂的结合形成的结果,辩解效应仍然存在。这个例子固然还存在可质疑之处,因为美貌和才华难以客观衡量,但它已经充分说明了对撞偏倚是真实存在的,我们在本书中还将看到许多这方面的例子
这三种接合形式,链接合、叉接合和对撞接合,就像分隔因果关系之梯第一层级和第二层级大门的锁眼
在公开讲座中,我常称它们为“神的恩赐”,因为它们能让我们检测已有的因果模型,发现新的模型,评估干预效应,等等
在贝叶斯网络中,我们必须具体给出在给定了“父节点”的条件下每个节点的条件概率。(请记住,一个节点的父节点是指向它的所有节点。)这类概率就是前向概率,P(证据|假设)。
贝鲁的绝妙想法是对每条消息进行两次编码,一次是直接编码,另一次是在对信息进行加扰之后编码。如此,我们就得到了两个分开的码字,并且让接收方也接收到了两条带噪音的信息[见图3.9(b)]。没有已知的公式可以直接解码这种双重信息,但贝鲁通过实验证明,如果你在这一贝叶斯网络上重复应用信念传播公式,两件特别神奇的事情就会发生:多数时间(我的意思是99.999%的时间)里,你都会得到正确的信息比特。不仅如此,你还可以使用更短的码字。简言之,使用两套代码A的效果要胜于使用一套。
这种负相关有时被称为对撞偏倚或“辩解”效应(explain-away effect)
因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(seeing)、行动能力(doing)和想象能力(imagining)
观察-基于现象,事实,数据,大数据属于此类 xing 观察-基于现象,事实,数据,大数据属于此类 行动-我觉得探索好些,通过观察,经验,指导行动 想象-推而广之,指导没有发生的现象,甚至逆向操作 观察-基于现象,事实,数据,大数据属于此类,与某种场景建立联系,动物的很多本能是这样建立起来的 行动-我觉得探索好些,通过观察,经验,指导行动 想象-推而广之,指导没有发生的现象,甚至逆向操作 观察-基于现象,事实,数据,大数据属于此类,与某种场景建立联系,动物的很多本能是这样建立起来的 行动-我觉得探索好些,通过观察,经验,指导行动,达到预期 想象-推而广之,指导没有发生的现象,甚至逆向操作 观察-基于现象,事实,数据,大数据属于此类,与某种场景建立联系,动物的很多本能是这样建立起来的 行动-我觉得探索好些,通过观察,经验,指导行动,达到预期,比如工具 想象-推而广之,指导没有发生的现象,甚至逆向操作 观察-基于现象,事实,数据,大数据属于此类,与某种场景建立联系/关联,动物的很多本能是这样建立起来的 行动-我觉得探索好些,通过观察,经验,指导行动,达到预期,比如工具 想象-推而广之,指导没有发生的现象,甚至逆向操作 观察-基于现象,事实,数据,大数据属于此类,与某种场景建立联系/关联,动物的很多本能是这样建立起来的 行动-我觉得探索或干预好些,通过观察,经验,指导行动,达到预期,比如工具 想象-推而广之,指导没有发生的现象,甚至逆向思考操作,提出问题,创作