將八爪魚 Paul 猜中一場世界盃比賽賽果的機會率記為 p。現在 Paul 八測八中,如果我們因而推論 p=1,那麼當 Paul 只是七測七中又如何?再換成六測六中,或五測五中呢?在最極端的情況,如果 Paul 只預測了一次,而又估中賽果,那麼我們是否依然認為 p=1?
MLE 是很好的工具,但它有其局限。我們不能因為 Paul 八測八中而推論 Paul 永遠不會估錯,這應該是常識。然而現今的學校,不少都只實行填鴨式教育,以致學生只懂得一頭裁進公式的深海,反而忽略了顯而易見的道理。以 Paul 的例子來說,八測八中,百測百中跟一測一中,p 的 MLE 都是 1,但很明顯的,在這三種不同情況底下,任何人對 Paul 的預測能力的信心,都會有很大分別。單純對 p 的數值作出估計是不夠的,我們還需要一個可以因應比賽的總場數而調整闊窄的 p 的範圍。簡單來說,我們需要的就是一個信賴區間 (confidence interval)。
然而,如本文的前篇所述,若使用一般教科書所載的 Normal approximation 去計算 p 的 C.I.,結果仍舊只得 p=1 一點,而非一個長度大於零的區間。既然公式不管用,這時候,我們就唯有老老實實地用更基礎的方法找出 p 的 C.I.。
這其實並不太困難。C.I. 跟 hypothesis testing 是一體兩面,我們現在從後者的角度去看八爪魚 Paul 的預測。
Paul 的每場預測結果為 Bernoulli(p) 隨機變數,所以 n 場之後猜中的總數 X 循 Binomial(n,p) 分佈。現在 Paul 八測八中,無論是 MLE 抑或 unbiased estimate,p 的 point estimate 都是 1。現在我們問:如果我們認為 p 的真正數值 p0 沒有 1 那麼大,那我們可否用 5% 的顯著度去否定 H0: p≤ p0 這個命題?
由於 Pr(X≥n | p=p0) = p0n,因此只有當 p0 ≤ 0.05(1/n) ,我們才可以用 5% 的顯著度去否定 H0。換句話說,當我們觀察得 X=n,p 的 95% C.I. 應該是 (0.05(1/n), 1]。代入阿 Paul 的 n=8,得出 C.I. = (0.6877,1]。(後記:此處有錯,詳見番外篇。)
本來打鐵要趁熱,不過近來事忙,寫不了那麼多。下篇再續。
生物統計人士將 Agresti 的 categorical data analysis 一書視為「仙水」,於是在這個情況(八估八中, p=1)會按 Agresti 建議分母加四,分子加二(即是當成十二估十中來計),再用 normal approximation 來計 CI 。
回覆刪除對啦,下篇正想說這個。要估計 Binomial distribution 的 p 的 C.I.,在統計學上是一個著名的困難問題。下篇會為這個問題的歷史下一些註腳,亦會提及這個 #trials 加 4,#success 加 2 的所謂 Adjusted Wald Interval。
回覆刪除當然,我呢挺吹水友,只識得文抄公。所以,若你有興趣的話,不妨直接睇下面兩篇 papers:
Alan Agresti and Brent A. Coull (1998), Approximate is Better than "Exact" for Interval Estimation of Binomial Proportions, The American Statistician, 52(2): 119-126.
L. Brown, T. Tony Cai, and A. DasGupta (1999), Interval Estimation for a Binomial Proportion, Technical Report #99-19, Department of Statistics, Purdue University.
CJ Clopper and ES Pearson, "The use of confidence or fiducial limits illustrated in the case of the binomial." Biometrika 26:404-413, 1934.
回覆刪除The Clopper-Pearson method is usually called the "exact confidence interval."
According to:
http://statpages.org/confint.html
95% confidence interval on 8 out of 8 is (0.6306, 1.0000)
不好意思﹐上面Clopper-Pearson method留言沒有留名﹐其實我是東南西北的宋以朗﹐
回覆刪除一向是你的忠實讀者(註﹕統計學興趣理由)。很多年前﹐我提倡Clopper-Pearson
method用于媒體調查﹐給人當作另類。見你博文﹐一時手癢。
閣下這個「註﹕統計學興趣理由」令我捧腹。究竟我應該為此高興,抑或為了潛台詞(你其他的文章太爛,我無興趣)而傷心呢 ……
回覆刪除你說因提倡用 Clopper-Pearson interval 而被視為異類,也令我有點「遐想」。本來對方可以是出於高層次(例如覺得 Agresti-Coull interval 較佳)或低層次 (can't teach old dogs new tricks) 的原因,但既然是許多年前的事,想來應是後者吧。總令人幻想到你是低級職員,而同事就覺得「那裏來這個多嘴的小伙子?」這種狀況。另外,用 Wald interval 較容易「篤數」,令結果顯得較 significant,也許也令人難以割捨吧。
不要傷心﹐你是多心。在香港﹐統計學博客究竟不多見﹐所以特別留意。
回覆刪除話說當年﹐公司同事是用normal approximation去計算C.I.
Example:
p=0.01
n=300
SE=SQRT(pq/n)=0.0057
95.5%C.I. = (0.01-2x0.0057, 0.01+0.0057) = (-0.0014, 0.0214)
當然 -0.0014 是 impossible. 所以他們會round off 到 (0.0014,0.0214).
不過這種‘差不多’C.I. 不再是95.5% 了﹗
我提供了一個自己寫的applet去計算Clopper-Pearson C.I.,但他們說沒有normal
approximation方便﹐覺得我麻煩。可是當客人指出normal approximation不當﹐他
們會乖乖的用我的applet。