2009年11月9日星期一

統計學小筆記

連我等只念過初等統計學的人都知道,統計上的相關不等於因果 (correlation is not causation)。著名的小書 How to Lie with Statistics 就提過,根據南太平洋島國 New Hebrides 的數據,當地健康的土人身上往往有蝨子,病人卻無。然而若將此發現解為「蝨子令人健康」,卻是個大笑話。真正的解釋是病人發高熱,才令蝨子離開。

兩件事情統計上相關,可以是巧合,可以兩者有因果關係,也可能兩者無因果關係,卻有共同起因。嚴格來說,統計相關只可用來佐證研究者提出的因果原理,卻不可單憑本身來證明因果關係。雖然並非所有學者都如此視之(例如醫學研究者對甚麼時候可將相關視為因果,就有他們自己的一套),但「相關不等於因果」於大多數要運用統計學的學術範疇,已是金科玉律。

唯一公認的例外,是時間序列分析 (time series analysis)。若有 A 系列及 B 系列事件,A 系列的事件與 B 系列之中稍晚才發生的事件有顯著相關,那麼若兩者有因果關係,則必然是 A 為因、B 為果,原因是我們相信,將來不能影響過去。

當然,此兩系列的事件仍可能是巧合或者是某共同起因的結果,但人們已慣於將時間序列的相關視為因果關係的證據,而忘掉其他可能,不過現實中還是有令人訝異的巧合的。我剛剛在看一篇文章[1],發現原來從 1952 年到 1976 年七個美國總統選舉年,每次若由 American League 的隊伍贏得 World Series 棒球大賽,則必定是由共和黨候選人贏得選舉;反之,若由 National League 贏得比賽,則由民主黨人當總統。

[1] Helmut Norpoth, "Economics, Politics, and the Cycle of Presidential Popularity", Political Behavior, 6(3): 253-273, 1984.

沒有留言:

發佈留言