Alone in the Fart: 勿因蟲廢言（三）

基於莫名其妙的原因，昨日忽然有較多讀者閱讀本網誌上週的文章《勿因蟲廢言（二）》。即使此處並非人氣網站，文章刊登與瀏覽量高峰之間的時差，也從未達四日那麼長。無論原因為何，重讀舊文一遍之後，為免讀者誤會，且容我澄清一下。

是次 HKUPOP 「特首民望調查」，梁振英的平均得分低於 50。梁粉認為這個結果有誤導之嫌，並提出幾項論據，其中較注目的一項，指受訪者所打的 998 個分數中，有 91 個屬零分這個「極端分數」，拉低了平均分數。

我不認為這個論據成立，原因如下：

有時計算平均數，我們的確希望排除「極端」數值（離群值，outliers）的影響。然而所謂「極端」，指的不單是樣本數字的大小，還有該樣本數字出現的概率。換句話說，我們要排除的，是極端罕見而且又有極端數值的樣本的影響。舉例說，設想某個介乎 0 至 100 的數字 X，若出現 X=0 的概率為 0.49505，出現 X=100 的概率也是 0.49505，而出現 X=1, X=2, ... 以至 X=99 的概率，各為 0.0001。那麼，儘管 0 與 100 是 X 的可能數值中極小與極大的兩個，但它們才是正常的數字，絕不應排除。
我們並無先驗 (a priori) 理由認為「特首民望調查」中的 0 與 100 分份屬罕見。故此它們應視為正常樣本數字，而非離群值。
若論語意的話，由於問卷只解釋了 0, 50 與 100 三個分數的意義，所以受訪者揀這三個分數，比揀其他分數更正常。因此，0 和 100 更不應視為離群值。
何況是次 998 個分數中，接近 9%（91 個）是零分。有如此多零分，我們更有理由相信它們並非離群值，而且受訪者所打分數其實屬多峰分布 (multimodal distribution)，而非類似鐘形曲線 (bell curve) 的單峰分布 (unimodal distribution)。
退一步說，就假設分數呈單峰分布，而 0 與 100 是離群值好了。由於有效分數只可介乎 0 與 100 之間，故此屬有界分布 (bounded domain distribution)。一般而言，相比無界分布，在有界分布中，離群值對平均數不會有嚴重影響。
實際上，今次樣本，在不加權的情況下，就算我們略去高低各一成樣本數字，而計算截尾平均 (trimmed mean)，結果仍與簡單的樣本平均數無大分別，兼且仍低於 50 分。

由此可見，梁粉圍繞「極端數值」的論據並不成立。

梁粉的批評，有另一個毛病，就是無視了平均分應該加權計算這個事實。

由於社會因素（例如從日間到黃昏，留在家中的成年人，應以家庭主婦和長者佔多），用固網電話做民意調查，必然有某類人會較少受訪 (under-represented)，而另一類人則訪問過多 (over-represented)。為了修正這個誤差，我們就要以受訪者的統計特徵（例如年齡、性別等等）來分組，將各組人佔受訪者總數比例，與人口普查所得的比例比較。若發現某組人於訪問中所佔比例太小，這一組樣本就要加重權數。這就是做民意調查時，受訪者經常會被問及年齡、性別等等個人資料的原因。

且不說今次調查中，打低於 50 分的受訪者，其實比打高於 50 分的還要多。就算給超過 50 分的受訪者真過半，若他們是 over-represented，一經加權修正，出來的結果也可能比 50 分低。

梁振英所得的平均分，加權後為 47.5（也就是 HKUPOP 公布的數字），未過 50，但此分數只是單點估計 (point estimate)。既是抽樣調查，就必然有統計誤差。如何分析這個統計誤差？有一篇由署名「陳電鋸」的大學博士生所寫網誌，就用了正統的 bootstrap method 來分析。結果顯示，即使考慮了統計誤差之後，我們仍有信心說，梁振英所得的加權平均分，明顯低於 50。

「輔仁媒體」刊登了另一篇反駁梁粉的文章。文章作者處理權數的方法並不妥當（概念上，權數應施加在樣本數字的出現頻率上，而非樣本數字本身；若果只是計算加權平均數這個單點估計，兩者效果並無分別，但若要做其他分析，就必須搞清楚概念），不過該文章也有有道理和有趣的地方，不妨一讀。

梁粉的另一項批評，是 HKUPOP 使用平均分不妥。這方面我是同意的，但我認為更根本的問題，並非在於「平均分」，而是曖昧不明的「分數」本身。

HKUPOP 的問卷只指明了 0-100 分這把量尺中其中三點（0、50 及 100）的意義，其他分數刻度的意思曖昧不明。儘管根據陳電鋸另一篇文章分析，多年來從 HKUPOP 調查計算所得的「特首民望」平均分數，與中大亞太研究所獨立調查所得大致吻合（不過他並無說清楚，其文章所指有很強相關的，究竟是兩個研究所的民望指數，還是兩組指數的升跌），然而，這頂多表示市民於大概同一時段內，心中所用的量尺大體一致，卻不能為升跌的幅度賦予任何意義。我們無從判斷，心中量尺刻度的意義，是否隨時而變。同是從 30 跌至 20，若於不同時間發生，意義是否一樣？即使現刻，我們亦無從判斷，能令民望從 47.5 升至 57.5 的政績，是否與能令民望從 47.5 跌至 37.5 的過失等量齊觀。

若然我們不能說明民望指數變幅的實際含義的話，「民望指數大跌」與「民望大跌」就難言是同一回事。若有不明就裏的受眾搞錯了，就算兩所研究機構並非存心誤導，伯仁也是為他們而死。

Alone in the Fart

2014年3月19日星期三

勿因蟲廢言（三）

3 則留言:

Recently read

堆填區

語文工具書

Label