【引言】:从统计教科书到大数据著作,相关性和因果关系的关系已经被广泛讨论,甚至有争议。梅耶尔·勋伯格在《大数据时代》中说,“要相关,不要因果”。大数据时代,相关性就够了。而周涛在《为数据而生》一书中说,放弃对因果关系的追求是人类的自我退化,相关性分析是寻找因果关系的利器。要不要听听第三方的意见?以下文字是BuzzFeed首席数据科学家亚当·凯莱赫(Adam Kelleher)的部分汇编。感兴趣的读者请。
众所周知,相关性和因果关系在人们的工作和生活中起着极其重要的作用,它们单独或共同影响着我们的行为。比如,经过几千年的观察,人们发现“燕子低飞”和“要下雨”是有关联的。所以,一旦人们看到“燕子低飞”,就知道“要下雨了”,那么就该收衣服了。
至于因果关系,对我们的影响更加明显。一方面,在做一件事之前,我们总是习惯于“先给我一个理由”。事后也爱给自己的行为“结果”,找“理由”。比如“因为早上要上班,所以必须6点起床”。如果你上班迟到了,向老板解释“我没有按时起床是因为闹钟没响”。几千年来,因果关系已经深深地写入了人们的思维基因。
既然相关性和因果性那么重要,那么它们之间又是什么关系呢?在学校的统计学课程中,老师不断告诉我们“相关性不代表因果关系”。那么,相关性是什么意思呢?有没有更好的解释模型来帮助我们理解这个复杂的世界?要理解这些问题,首先要明白,什么是因果关系?
什么是因果关系
目前,因果关系有一个非常明确的定义。一般来说,原因是指引起某种现象的现象,结果是指由原因的作用串联而成的现象。因果关系的特点是因在先,果在后,前者的出现导致后者。但千百年来,对因果关系的认知一直存在争议。比如18世纪英国著名哲学家休谟,根本不承认任何因果关系。他认为所谓的因果关系只是他思想中的习惯性联想。
下面我们将用一个例子来说明传统意义上的因果关系。假设你每天上班上班。显然,如果交通堵塞,你上班就会迟到。另外,如果家里的闹钟不响(所以你不能按时起床),也会导致你上班迟到。因此,我们使用如图1所示的图表来描述这三者(闹钟、流量和迟到)之间的关系。
图1:基本因果图
图1只列出了上班迟到的两个最常见的原因。其实迟到的原因也可能包括:路上车坏了,给孩子做早餐耽误了,早起看新闻走神了等等。在图1中不可能包含所有这些小因素。
为了抓住主要矛盾,必须简化认知模型。图1所示的模型只能包含影响我们工作迟到的最常见因素。大量我们忽略的小因素,都可以看作是“噪音”,被过滤掉。事实上,我们可以进一步构建一个更全面的“因果关系”模型图。比如我们继续搜索。交通堵塞的原因是什么?闹钟不响的原因是什么?
如果发生意外灾难(如龙卷风),会造成断电,使闹钟不响(假设闹钟插上电源)。事故也会导致交通堵塞。于是我们再次更新图1,给出闹钟失灵和堵车的原因,如图2所示。
图2:一个更完整的世界
如果时间轴足够长,我们可以收集大数据集,然后分析发现,当你的闹钟不响的时候,流量就被阻断了。显然,这两个原本“互不相同”的东西之间是有关联的。但是我们也清楚的知道,闹钟响不响和堵车不存在因果关系。这就是“相关性不代表因果关系”的本质。
更具体地说,相关性是一个统计学概念。数据越多,A出现时B出现的概率就足够显著,那么A和B就相关了。因果关系是一个逻辑概念,A的发生导致b的发生,同样的,比如看到闪电(A)和听到雷声(b)是高度相关的,但是两者之间并没有因果关系。
如上所述,相关性分析不是因果关系的杀手,相反,它是发现因果关系的利器。相关性的背后,必然有一个共同的原因导致A和B的发生。这些背后的原因可能不是直接原因,但可能在“因果图”的“上游”某处。比如自然灾害就是“闹钟不响”“堵车”背后的共同原因。雷雨天气是“雷”和“闪电”背后的共同原因
所以,现在问题来了。
如果我们能找到隐藏在关联背后的共同原因,却没有“天眼”,每次都看不透关联背后的玄机怎么办?
不用太担心。让我们来看看我们所依赖的科学是如何工作的。理解了之后,你会对这个问题更放心。
科学是如何运作的?
为了避免进入科学技术哲学的讨论范畴,我们只在一些基本原理的基础上讨论一些观察到的事实。
现在,假设我们知道的世界如图1所示。现在,我们要检验这个假设。在一定程度上,图1所示的世界是“足够好”的,因为“闹钟不响”可以作为“迟到”的理由,“堵车”也可以解释“迟到”。
因为灾难性事件非常罕见。所以一开始很难发现“闹钟不响”和“堵车”之间有什么关联。但是随着时间的推移,时间轴变得越来越长,可以在时域内收集到越来越多的灾难数据。结果,“闹钟不响”和“堵车”同时出现,更频繁,统计意义更大。那么,如果还是用图1来解释整个世界,就显得有点摇摇欲坠了。
因此,我们需要更新我们的认知模型,即使用一个双向结束箭头来连接两个相关的事件,如图3所示。图中双箭头表示有一些不寻常的原因,与“闹钟不响”和“堵车”这两个事件有关。
图3:一个未被发现的原因
自然,我们非常希望这背后的原因范围能够缩小到图2所示的精度。但现实是残酷的,很多时候,我们认识的世界是无知的。但是,即使我们没有得到如图2所示的准确认知,即使失去了一些环节和变量,在很多情况下,这样的世界也是“足够好”的。
但科学的进步是对“好到科学不够好”的不满。
在物理学领域,有这种科学进步的例子。比如牛顿的万有引力理论就是解释世界的“足够好”的地图。因为它不仅能解释大多数恒星的运行,还能让人登月。
但是牛顿定律对于“水星进动”来说“不够好”(因为水星近日点的进动值与观测值有差异)。牛顿定律对于精确的GPS系统是不够的(对于高精度的GPS测量,不仅要考虑GPS系统本身的精度,还要考虑与地球全球运动相关的相对论效应)。后来爱因斯坦对牛顿的“足够好”的知识图谱并不满意。1916年,爱因斯坦发表了他著名的广义相对论,提供了更完整的认知地图,可以更好地解释世界。所以“水星进动”可以更好的解释,GPS系统可以有更好的精度。
未完成的结论
从上面的讨论可以看出,相关性并不意味着因果关系,而是意味着认知图的上游可能存在一些不寻常的共同原因。探索这些共同的原因可以拓展我们的认知地图。
图2所示的世界其实是一个类比。因为在我们的世界里,“灾难(黑天鹅事件)”是罕见的。因此,我们必须注意收集越来越多的数据来捕捉这些罕见的结果。一旦我们能够对这些罕见的结果形成一种可解释的(因果关系),它将扩大我们的知识边界,增强我们对世界的理解。
我们知道,在小样本集合中,长尾部分的很多情况是极不可能被观测到的,因为发生的概率极低。大数据的一个重要优势就是在长尾应用中发现稀疏而珍贵的价值——一些稀有结果的可解释性(比如一些低频癌症的病因等)极其有用。).
译者简介:张玉红,一本书的作者
1.《因果 如果相关不意味着因果,那么意味着什么?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《因果 如果相关不意味着因果,那么意味着什么?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/fangchan/804338.html