2014年3月15日星期六

勿因蟲廢言(二)

上週香港發生了兩單非常嚴重的事件,其一是警方竟然闖入區議會,抬走正在正常開會的區議員;其二是政府以一個極其荒謬的理由,要求明明應該只受《電訊條例》監管的「香港電視網絡」流動電視業務,亦要受《廣播條例》監管,令港視於正式開台之前,必須取得本地免費或收費電視節目服務牌照。

儘管香港淪為中國殖民地以後,情況一直變壞,市民也一直說「低處未算低」,然而今次這兩宗事件,卻是香港正式告別英治年代政治格局的里程碑。舊日講求公務員政治中立,和講究規章制度的精神,今日已完完全全淪為「親疏有別」、「法律因人而異」的人治局面。兩天前於電視上聽見中國總理李克強說「中國是法治國家,不論是誰,不論職位高低,法律面前人人平等」,我聽了只得冷笑。黨大於法的國家一邊自詡法治,一邊摧殘其殖民地原有的法治制度;自稱「人民民主專政」,卻擁有永遠執政黨的野蠻人,大言不慚,指點有半熟代議政制的文明人何謂民主,何謂法治,何謂普選……甚麼叫「匪夷所思」,香港歷史就是最佳註腳。

比起上述兩宗嚴重事件,今日我於「主場新聞」看到的鬧劇就顯得非常次要,然而此事上我總算有一些實質的東西可以說,故此不妨一談。鬧劇的起因,又是「梁粉」批鬥鍾庭耀。詳情請閱以下兩篇立場迥異的網絡文章:
公說公有道,婆說婆有理?
「梁粉」批評如下:
依據港大最新的民調,以100分為滿分,特首僅獲47.5平均分,當然就被評為不合格了。然而,只要打開原始資料,就會發現998個評分者中,原來有多達615人、即逾6成人均給予特首50或以上的合格分數,其中更有29人給予100分;僅有383人給予50以下的評分。那麼,為何特首的評分又會不合格呢?最大的問題在於有91人個受訪者給予0分,就是這些極端評分,令特首的平均分大幅度拉低。
「主場」及香港大學民意研究計劃研究經理李偉健則反駁:
 評論指有91個0分樣本「拉低」平均分,沒有提到29個100分樣本同時會「拉高」平均分。港大民意計劃研究經理李偉健向《主場新聞》解釋,民望調查詢問受訪者給予官員0分至100分的評分,相信受訪者誠實回答,無論樣本是0分或是100分,都應納入計算,除非是101分,在數值範圍之外才會剔走。

李偉健強調,歷來民望調查同樣沿用這方法,公布按評分計算算術平均值(Arithmetic Mean),「沒有篩走特別低、特別高的評分。」
開門見山。我認為「梁粉」的批評有其道理,但其為己方所作辯解,一樣有問題。另一邊廂,「港大民研」的統計方法也有毛病。

Lies, damned lies, and 梁粉's statistics
統計數字不會說謊,它有的只是統計偏差。說謊的,是運用它的人。"Lies, damned lies, and statistics" 這句名言,就是用來諷刺那些蓄意運用統計數字來製造假像的人。前述「梁粉」的批評,正好拿來作「統計語言偽術」的最佳範例。

從「特首民望調查」所得到的 998 個有效評分,平均分為 47.4(「港大民研」公布數字為 47.5,略有不同,這是因為他們按受訪者的統計特徵作加權平均),低於 50,但實際上 998 個分數當中,有 615 個為 50 分以上……至此,梁粉都沒有說錯。然而,他們沒說的是:
998 個分數當中,也有 663 個為 50 分以下。
感覺混淆嗎?或者這樣說吧,998 個分數當中,有 383 個低於 50 分,280 個等於 50 分,335 個高於 50 分。分數的分布如下:

從 0 到 100,共有一百零一個整數,而 50 正好居中。梁粉試圖以「50 分以上」這個標準來描繪一個梁振英有超過六成人支持的景象,可是據他們的邏輯,我們同樣可以說,以「50 分以下」這個標準來判斷的話,有超過六成人(而且這個「超過六成」的人數比起梁粉的「超過六成」更多)反對梁振英!

我不明白一眾梁粉何以如此介懷 47.5 這個只略低於 50 的數字。若是選舉的話,兩三個百分點也許是勝負關鍵,可是像印象分這種雖非玄學,卻也「不算精密科學」的東西,47.5 和 50,實在沒有分別。換了我是梁振英,看到如此數字,高興還來不及呢。

離群值與平均數
梁粉指出,998 個分數當中,有 91 個是 0 分,這些極端評分拉低了整體的平均數。這是正確的。「主場」卻反駁梁粉,說他們沒提及樣本當中亦有 29 個 100 分,會有拉高平均分的相反效果,也同樣正確,亦再一次顯示梁粉玩弄輸打贏要的統計語言偽術。

然而,撇除梁粉的拙劣技倆不談,若樣本中可能有不少「離群值」(outliers) 的話,到底我們應該如何估計統計母體的平均數?

港大民研的李偉健指「無論樣本是0分或是100分,都應納入計算」。就一般統計調查來說,這是過時的做法(但此處有一個 catch,要押後談)。現代統計學認為「穩陣」(robust) 的做法,本網誌之前的書評其實已經提過,就是利用截尾平均 (trimmed mean),也就是先截去最高和最低的 5-10% 數據,然後才計算平均數。

可是我們幾乎可以斷言,在「特首民望調查」中,無論用普通的算術平均,抑或用截尾平均,都不會有大分別。原因是一般來說,離群值最有殺傷力的情況,是母體數字本身為「無界」(unbounded) 的時候。是項調查當中,有效的評分本身有界(只可介乎零至一百),離群值的影響通常不會太壞,故此梁粉的批評,抓不到統計學的重點。

實際上,若截去今次樣本當中,高低各一成的數據的話,得出來(未經加權)的截尾平均為 48.1,與樣本平均數 47.4 相去不遠。

尺度不同,分數如何換算?
這倒不是說「特首民望調查」無問題。印象中,港大民研所做的民意調查,大部份(例如立法會選舉的選前調查和 exit polls)都很紮實。然而此項「特首民望調查」,卻非常礙眼。我很想問鍾庭耀一句:
How on earth is this rating meaningful? 
單單叫受訪者為梁振英打個分數,已經很有問題。問卷只提過零分(「絕對唔支持」)、五十分(「一半半」)與一百分(「絕對支持」)的意義,中間的尺度 (scale),人人卻不同細分。你我各給六十分,意思未必相同。你的分數如何換算成我的,完全木宰羊。現時港大民研的做法,實際上假設了所有人的評分尺度均一。由此引起的模型風險 (model risk),無法評估。舉個例說,若你看到梁振英的「民望指數」比上月高,你可能以為他真的愈來愈受市民歡迎,但實情可能是他的民望無變,只是今個月的受訪者的評分尺度較寬鬆,對無甚特別感覺的官員,也傾向打一個高分而已。

就算是奧運體操項目,評分有較多稍為客觀的細項憑依(動作要求、難度、時限等等),仍不時惹人爭議,各人對特首表現的評分尺度,又怎可能大致一樣?

不知尺度,何論變化?
好了,就假設香港有一個平均的評分尺度吧。套用經濟語言來說,就當人人都用一個一致「市場評分尺度」好了,但為何我們可以計算平均分?平均數並不一定是有意義的。一半人給零分,另一半給一百分,借用時下流行語來說,是社會撕裂的狀況;所有人都打五十分,卻更似人人認命。兩種情況截然不同,平均分都是五十分,那麼五十分究竟是甚麼意思?

以上例子當然太極端,極端到與雷鼎鳴對堅尼系數的批評如出一轍。假若港大民研只是拿這個平均分來判斷粗略民情的話,上一段的批評是不適用的。問題是,港大民研對待這個平均數時,彷彿其精密數值或它幾個百分點的變化,有甚麼微言大義似的。然而,即使香港有一個「市場評分尺度」,我們仍不知道這個尺度是甚麼樣子。同樣是跌十分,從一百跌至九十分,是否跟六十跌至五十,或十跌至零同樣大鑊?木宰羊。五十分所代表的「一半半」,和「及格」是同樣意思嗎?木宰羊。不及格的話,甚麼分數才算民怨沸騰,很想梁振英辭職?木宰羊。

不知背後的評分尺度的話,再精密的數字都是沒用的。弄得好像很精密,反而令人誤以為該數字很科學,其細微變化很有意義。

離群值真是離群值嗎?
前面說過,以普通的算術平均來估計母體平均數,乃過時做法。諷刺的是:
  • 對「特首民望調查」來說,由於整把由零至一百分的量尺中,只有零、五十及一百有清晰意義,所以這三個分數,比其他分數可靠。
  • 故此,吊詭地,0 和 100 兩個離群值,反而不應剔除。
  • 結果梁粉針對離群值的批評,意外地不適用。
  • 若硬要計算平均數,普通的算術平均,此處亦反而比截尾平均更恰當。
然而這不表示港大民研的做法正確。正正因為他們採用了語意不明的尺度,才造成這許多奇怪狀況。

結語一:less is more
如前述,港大民研的民意調查,一般都很紮實,但這項「特首民望調查」,用粵語來說的話,真係「畀位人插」。"Less is more" 這句說話聽來陳套,但此處適用。奉勸 Robert Chung,還是乾脆將問卷問題改成簡簡單單的「你想唔想梁振英繼續執政」之類好了,不要再搞那些懶細緻的評分吧。

結語二:廢話去死,自由萬歲
最後且談文字,不談統計。梁粉謂:
港大民意研究計劃的民調早陣子引起連串質疑,未知是否有見及此,今次港大再度公布特首評分時,民意網站已出現所謂的「原始資料」,雖然相關檔案的格式要以特定軟件才能打開,但內裡所刊載的正正是評分分布數字。
這不是廢話嗎?有甚麼檔案是任何軟件都可以打開的呢?何況所謂「特定軟件」和檔案格式,也不過是統計佬慣用的 SPSS 與它的 sav 格式吧。不想付鈔的朋友,可用免費的自由軟件 R 打開有關檔案。

相關網頁
伸延閱讀
  • 電鋸,你玩統計,統計玩你:「問題根本不在於 0 和 100 等等 outliers ,而是佔人口比重較多的組群對梁振英評分較低。

2 則留言:

匿名 說...

所言甚是!

不過 SAV 始终是 proprietary 格式。用纯文字的 CSV 格式不是更好嘛?

The suffocated 說...

技術上來說,CSV也是專有格式嘛。若真要使用公開格式,應該用 OpenDocument Spreadsheet (.ods) 而不是 CSV 才對。

當然,能夠打開CSV格式檔案的軟件,遠比能夠打開 SPSS SAV檔案的軟件多,故此若問 SAV 好抑或 CSV 好,答案當然是CSV,不過公開原始數據,本來就不合行規,既然現在港大民研肯做,大家就不要要求太多好了。