2014年3月19日星期三

勿因蟲廢言(三)

基於莫名其妙的原因,昨日忽然有較多讀者閱讀本網誌上週的文章《勿因蟲廢言(二)》。即使此處並非人氣網站,文章刊登與瀏覽量高峰之間的時差,也從未達四日那麼長。無論原因為何,重讀舊文一遍之後,為免讀者誤會,且容我澄清一下。

是次 HKUPOP 「特首民望調查」,梁振英的平均得分低於 50。梁粉認為這個結果有誤導之嫌,並提出幾項論據,其中較注目的一項,指受訪者所打的 998 個分數中,有 91 個屬零分這個「極端分數」,拉低了平均分數。

我不認為這個論據成立,原因如下:

  1. 有時計算平均數,我們的確希望排除「極端」數值(離群值,outliers)的影響。然而所謂「極端」,指的不單是樣本數字的大小,還有該樣本數字出現的概率。換句話說,我們要排除的,是極端罕見而且又有極端數值的樣本的影響。舉例說,設想某個介乎 0 至 100 的數字 X,若出現 X=0 的概率為 0.49505,出現 X=100 的概率也是 0.49505,而出現 X=1, X=2, ... 以至 X=99 的概率,各為 0.0001。那麼,儘管 0 與 100 是 X 的可能數值中極小與極大的兩個,但它們才是正常的數字,絕不應排除。
  2. 我們並無先驗 (a priori) 理由認為「特首民望調查」中的 0 與 100 分份屬罕見。故此它們應視為正常樣本數字,而非離群值。
  3. 若論語意的話,由於問卷只解釋了 0, 50 與 100 三個分數的意義,所以受訪者揀這三個分數,比揀其他分數更正常。因此,0 和 100 更不應視為離群值。
  4. 何況是次 998 個分數中,接近 9%(91 個)是零分。有如此多零分,我們更有理由相信它們並非離群值,而且受訪者所打分數其實屬多峰分布 (multimodal distribution),而非類似鐘形曲線 (bell curve) 的單峰分布 (unimodal distribution)。
  5. 退一步說,就假設分數呈單峰分布,而 0 與 100 是離群值好了。由於有效分數只可介乎 0 與 100 之間,故此屬有界分布 (bounded domain distribution)。一般而言,相比無界分布,在有界分布中,離群值對平均數不會有嚴重影響。
  6. 實際上,今次樣本,在不加權的情況下,就算我們略去高低各一成樣本數字,而計算截尾平均 (trimmed mean),結果仍與簡單的樣本平均數無大分別,兼且仍低於 50 分。

由此可見,梁粉圍繞「極端數值」的論據並不成立。

梁粉的批評,有另一個毛病,就是無視了平均分應該加權計算這個事實。

由於社會因素(例如從日間到黃昏,留在家中的成年人,應以家庭主婦和長者佔多),用固網電話做民意調查,必然有某類人會較少受訪 (under-represented),而另一類人則訪問過多 (over-represented)。為了修正這個誤差,我們就要以受訪者的統計特徵(例如年齡、性別等等)來分組,將各組人佔受訪者總數比例,與人口普查所得的比例比較。若發現某組人於訪問中所佔比例太小,這一組樣本就要加重權數。這就是做民意調查時,受訪者經常會被問及年齡、性別等等個人資料的原因。

且不說今次調查中,打低於 50 分的受訪者,其實比打高於 50 分的還要多。就算給超過 50 分的受訪者真過半,若他們是 over-represented,一經加權修正,出來的結果也可能比 50 分低。

梁振英所得的平均分,加權後為 47.5(也就是 HKUPOP 公布的數字),未過 50,但此分數只是單點估計 (point estimate)。既是抽樣調查,就必然有統計誤差。如何分析這個統計誤差?有一篇由署名「陳電鋸」的大學博士生所寫網誌,就用了正統的 bootstrap method 來分析。結果顯示,即使考慮了統計誤差之後,我們仍有信心說,梁振英所得的加權平均分,明顯低於 50。

「輔仁媒體」刊登了另一篇反駁梁粉的文章。文章作者處理權數的方法並不妥當(概念上,權數應施加在樣本數字的出現頻率上,而非樣本數字本身;若果只是計算加權平均數這個單點估計,兩者效果並無分別,但若要做其他分析,就必須搞清楚概念),不過該文章也有有道理和有趣的地方,不妨一讀。

梁粉的另一項批評,是 HKUPOP 使用平均分不妥。這方面我是同意的,但我認為更根本的問題,並非在於「平均分」,而是曖昧不明的「分數」本身。

HKUPOP 的問卷只指明了 0-100 分這把量尺中其中三點(0、50 及 100)的意義,其他分數刻度的意思曖昧不明。儘管根據陳電鋸另一篇文章分析,多年來從 HKUPOP 調查計算所得的「特首民望」平均分數,與中大亞太研究所獨立調查所得大致吻合(不過他並無說清楚,其文章所指有很強相關的,究竟是兩個研究所的民望指數,還是兩組指數的升跌),然而,這頂多表示市民於大概同一時段內,心中所用的量尺大體一致,卻不能為升跌的幅度賦予任何意義。我們無從判斷,心中量尺刻度的意義,是否隨時而變。同是從 30 跌至 20,若於不同時間發生,意義是否一樣?即使現刻,我們亦無從判斷,能令民望從 47.5 升至 57.5 的政績,是否與能令民望從 47.5 跌至 37.5 的過失等量齊觀。

若然我們不能說明民望指數變幅的實際含義的話,「民望指數大跌」與「民望大跌」就難言是同一回事。若有不明就裏的受眾搞錯了,就算兩所研究機構並非存心誤導,伯仁也是為他們而死。

3 則留言:

方潤 說...

部分可能因為我推薦左畀教通識同數學既同事睇。

睇下呢篇會唔會﹖ :P

The suffocated 說...

呀,這就要多謝推薦了!

方潤 說...

今日可能更多,因為連練生都推薦左你同電鋸,效力非區區宣傳易可比。XD