2008年10月11日星期六

Confidence Interval

Chainsaw 在 1-555-CONFIDE blog 談信賴區間 (confidence interval, CI) ,令我憶起以前如何向學生解釋這個概念。電鋸先生說「Confidence Interval 其實最錯的解釋,是幾多 % 機會母數是在這個區間之內」,這只是部份正確。討論 CI 時令人混淆的,是論者往往沒講清楚他們正在談論的 CI 究竟是隨機區間 (random interval) 還是該區間的實現 (the observed/realised CI) 。舉例說,若

$$X_1, X_2, \ldots, X_n \sim N(\mu,1),$$
其中 $\mu=0$,不過我們並不知道這個真實數值,因此我們想尋找一個 $\mu$ 的信賴區間。中六的統計學告訴我們,$\mu$ 的 95% CI 為

$$I = \left(\overline{X}_n - \frac{1.96}{\sqrt{n}},\ \overline{X}_n + \frac{1.96}{\sqrt{n}}\right). \ldots\ldots (\ast)$$
由於 $X_1, X_2, \ldots, X_n$ 是隨機的,所以 $\overline{X}_n$ 也是隨機變數,而 $I$ 是個隨機區間。此時,若我們說 $\mu$ 有 95% 的機會處於區間 $I$ 之內,一點也沒有錯。然而,當我們真正觀察了(比方說) $n=16$ 次 $X$ 的數值,並發現(比方說)$\overline{X}_n=0.5$ 的時候,我們並不能說 $\mu$ 有 95% 的機會落在由此所得的信賴區間 $I = (0.01, 0.99)$ 之中。始終,在 $(\ast)$ 中的隨機區間 $I$ 只有 95% 的機會涵蓋 $\mu$,誰能保證我們觀察 $I$ 的時候不會遇著餘下 5% 的情況?事實上,在本例中 $\mu=0$,因此 $\mu$ 屬於區間 $(0.01, 0.99)$ 的機會率永遠是 0,而不是 95%。這是很重要的一點:對任何已被觀察的信賴區間 $I$ 來說,$\mu\in I$ 是一個 0 與 1 的問題。$\mu$ 是未知的常數,不是隨機變數($\overline{X}_n$ 才是隨機變數),若本來 $\mu\notin(0.01, 0.99)$,不管你再做幾多次實驗,$\mu$ 依然不屬於 $(0.01, 0.99)$。

那麼我們應該如何詮釋 $(0.01, 0.99)$ 這個信賴區間?答案是這樣的:
隨機區間 $I=\left(\overline{X}_n - \frac{1.96}{\sqrt{n}},\ \overline{X}_n + \frac{1.96}{\sqrt{n}}\right)$ 有 95% 的機會會涵蓋 $\mu$,如果我們相信自己並非那麼倒運遇著餘下的 5% 情況的話,那麼按照我們的觀察,$\mu$ 應該(這個「應該」是絕對的 100%,不是 95%)介乎 0.01 與 0.99 之間。
Confidence interval 的所謂 confidence,並不是指我們很有信心這個區間會準確,而是說我們「出來行講個信字」,自信沒有運滯,因而相信 $\mu$ 落在觀察所得的 CI 當中。

與此相關的是如何理解 CI 的闊度。假設我們觀察了 $n = 10000$ 次,發現 $\overline{X}_n$ 依然等於 0.5,因此獲得信賴區間 $I = (0.4804, 0.5196)$。由於在本例中 $\mu=0$,雖然這個新的 CI 比舊有的 $(0.01, 0.99)$ 窄了許多,但它並不比舊有的更加準確。

由於我們無法保證觀察所得的 CI 會涵蓋 $\mu$,因此 CI 的闊度與 $\mu$ 的準確度 (accuracy) 無關,它表示的其實是對 $\mu$ 的估計的精密度 (precision)。在舊的 CI 中,我們相信 $\mu$ 介乎 0.01 與 0.99 之間,究竟是 0.1 左右、0.5 左右還是 0.9 左右,十分說不準。新的 CI (0.4804, 0.5196) 則精密得多,若取一個小數位的話,我們相信 $\mu= 0.5$。然而精密的未必準確(無論是新舊兩個 CI, $\mu = 0$ 都不在其中),準確的又未必精密(若有第三個 CI 指 μ 介乎 −0.1 與 +0.1 之間,它會比第二個 CI 準確,但不及其精密)。

當然,一般看報章(例如報道民意調查)或學報,我們都假設有關的統計準確,因此較精密的統計比較不精密的更有用。SARS 肆虐期間,政府遲遲不肯公佈患者的死亡率,後來醫管局終於聯同兩間大學的醫生並倫敦帝國學院的傳染病學權威 Prof. Christl A. Donnelly 共十九人在 Lancet 出了一篇論文 Epidemiological determinants of spread of causal agent of severe acute respiratory syndrome in Hong Kong 去估計 SARS 的 fatality rate,獲全球傳媒報道。這是我見過最 overhyped 的學術文章了,所用的方法也許在學術上算正規(主要是 Gamma distribution 的 MLE),但得出來的 CI 卻闊得驚人,對六十歲或以上的患者,CI 是 (35.2%, 52.4%),說了等於沒說;即使是六十歲或以下的患者,其 CI (9.8%, 16.8%) 的精密度亦甚低。其實死 9.8% 的病人與死 16.8% 的病人已不可同日而語,超過三成患者失救,死亡率的 CI 更沒意思,不如乾脆說情況嚴峻好過。

沒有留言: