Alone in the Fart: 網文偶讀之百年一遇

R.J. Oosterbann, Frequency and regression analysis of hydrologic data (pdf)
Floods: Recurrence intervals and 100-year floods; USGS
看香港如何防“水浸” 排水干渠系统200年一遇；北京晚報，2012年07月22日
香港渠務署網頁

兩年前七月廿一日的北京暴雨，據說令全中國非常感動，各人為了賑災，有錢出錢，有妹捐妹。內地大部份的報章都稱此暴雨為「百年一遇」，局部地方的單日降雨量甚至是「五百年一遇」云云，惹來網民嘲弄，謂「在我短短的一生裡，百年一遇的洪水見過10次，千年一遇的地震見過2次，唯獨四年一遇的全民大選還沒遇見過」。這句譏諷話獲內地網民瘋傳之餘，報章亦有人指摘「官方」以「百年一遇」之說來推卸責任，例如《金羊網》就有篇專欄文章說：

筆者認為，說白了，無論是推出“40年一遇”、“60年一遇”、“61年一遇” 之說，還是拋出“百年一遇”、“接近五百年一遇”之論，無非就是想告訴大家︰這是老天爺的錯，要怪就怪老天爺去吧。

「百年一遇」的定義
「百年一遇」指的其實是自然現象的重現期 (return period)。「重現期」是大學專科（譬如水利工程學）術語，但它牽涉的統計概念只屬高中程度。簡單來說，若某自然現象 A，於某單位時間（譬如一日）內發生的機會率為 p，那麼其重現期（譬如以日數計），就是 1/p 個時間單位。

詳細一點來說，當我們談及重現期的時候，背後假設了 A 於每個單位時間內發生與否，皆為獨立事件，亦即是假設 A 是 i.i.d. Bernoulli(p)，而所謂 A 的重現期，就是距離下一次觀察到 A 所需的平均時間。譬如我們以日為單位，現在是第一日的開首，而下一次要第 $T$ 日才觀察到 A，那麼 A 的重現期，以日數計就是 $E(T)$。很明顯：

第一日就觀察到 A（亦即 T=1）的機會率為 $p$；
第二日才觀察到 A（亦即 T=2）的機會率為 $qp$（$q=1-p$）；
第三日才觀察到 A（亦即 T=3）的機會率為 $q^2p$；
第 n 日才觀察到 A（亦即 T=n）的機會率為 $q^{n-1}p$；
故此 $E(T) = p + 2qp + 3q^2p + ... + nq^{n-1}p + ...$（練習）。若讀者念過大一統計學的話，當然知道 T 依隨的實乃參數為 p 的 geometric distribution。

「重現期」既是科學術語，有關現象的定義自然要準確。假若我說「雨是 7.5 日一遇」，是沒意思的。換作「天文台沙田氣象站的雨，是 7.5 日一遇」好一點，因為指明了事件發生的地方。換成「天文台沙田氣象站錄得 40 毫米以上的單日降雨量，乃 7.5 日一遇的事件」就更好，因為說明了談話者所關心的是多大的雨。

網民嘲諷中共「官方」稱這次事件乃百年一遇，然而我找過一些內地大報，如《人民日報》、《光明日報》與《中國日報》，若不計轉載內容，它們均無提過該暴雨為百年一遇，例如《中國日報》一篇報道就只是說這次是 the most devastating downpour in the Chinese capital for 61 years。中國氣象局、北京市氣象局及其轄下機構好像也沒有以「百年一遇」來形容該次暴雨。所以，公道一點地說，當時的「百年一遇」之說，並未得到中共中央或氣象部門認可。

一些北京報紙，如《北京青年報》、《新京報》或《北京晨報》，倒報道過「百年一遇」一說，而且它們的消息來源皆為「北京市人民政府防汛抗旱指揮部副指揮潘安君」。據《北京晨報》報道：

市气候中心昨天公布的数据显示，比起21日历史罕见的大暴雨，自1951年有完整气象记录以来的京城历史上，单日降雨量排名“亚军”和“季军”的降雨日分别为1952年7月21日和1954年8月9日，但老天爷降下的雨水比起“冠军”却远远不及。
　　昨天，市防汛抗旱指挥部副指挥、市水务局副局长潘安君通报了此次特大暴雨的四个“历史罕见”：降雨总量之多“历史罕见”，全市平均降雨量170毫米，城区平均降雨量215毫米，为新中国成立以来最大一次降雨过程，房山、城近郊区、平谷和顺义平均雨量均在200毫米以上，降雨量在100毫米以上的面积占本市总面积的86%以上；强降雨历时之长“历史罕见”，一直持续近16小时；局部雨强之大“历史罕见”，全市最大点房山区河北镇为460毫米，接近五百年一遇，城区最大点石景山模式口328毫米，达到百年一遇，……

從上述報道，可見：

潘安君只說過而北京當日的全市單日平均降雨量屬「新中國」成立以來之冠，並沒說此降雨量是「百年一遇」。
然而他確有聲稱「石景山模式口」當日雨量是「百年一遇」，更說「房山區河北鎮」的降雨量為「五百年一遇」。

如何估計重現期
前面提到一個現象的重現期，是距離它下次發生的平均時間。要估計這個期望值，從文獻所見，常用方法似有三種。

第一種是以簡單的相對頻數來計算事件發生的概率 p，從而推算重現期 $E(T)$。舉例說，若根據過往記錄，某 B 區於過去十年（n = 3652 日）當中，有 m = 13 日的單日降雨量超過 100 毫米，那麼，對於「B 區的單日降雨量達100 毫米以上」這個事件，我們所估計的 p 就是 $\frac{m}{n} = \frac{13}{3652} = 0.0036$，而此事件的重現期為 $E(T) = \frac1p = 281$ 日，或者 0.77 年。因此，若今天 B 區剛巧錄得 100 毫米以上的單日降雨量，我們可以稱這場雨為「0.77 年一遇」。

第二種方法是用有序統計 (order statistics)。假設我們將前例中 3652 個單日降雨量由大至小排列，發現當中排第 r = 13 的單日降雨量為 102 毫米，那麼，對於「B 區的單日降雨量達 102 毫米以上」這個事件，我們估計 $p = \frac{r}{n+1} = \frac{13}{3653}$（留意此處與第一種方法不同，分母為 n+1），而重現期為 $E(T) = \frac1p$，同樣大概是「0.77 年一遇」。

第三種方法是 distribution fitting，亦即是將過去的觀測記錄模配到理論上的統計分佈之中。若模配的是長期平均值的分佈的話（例如每年平均單日降雨量），由於大數定律，用 normal distribution 就可以了；若模配的是最大值的分佈的話（例如每年最高單日降雨量），較常用的則有 Gumbel distribution 與 exponential distribution 兩種。如何將觀察資料模配到理論分佈之中，或者如何檢定模配的合適度，是大學統計學的內容，此處不贅。

假設我們手頭上只有某地過往 N 年的單日降雨量記錄，可以證明（練習），無論今日我們觀察到該地的單日降雨量為何，若用上述頭兩種方法，而且 Y>N+1，我們是絕無可能得出今日這場雨是「Y 年一遇」這個結論的。《北京晨報》說北京自 1951 年起有完整氣象記錄。其實中共建政後，北京於 1951 年建立第一所氣象站，當時是否已有「完整氣象記錄」，不得而知，但就算有，從 1951 年至 2012 年才不過 61 年，因此，若說北京雨災當日，「石景山模式口」的降雨量是「百年一遇」，甚至「房山區河北鎮」的降雨量為「五百年一遇」，是絕無根據的。

若用的是第三種方法，由於所用的分佈是伸延至無限大的連續曲線，無論如何大的降雨量，我們也的確可以估計出它的重現期。問題是，若降雨量像前述的北京暴雨那樣，完全高於過往最高記錄，則如此推算出來的重現期，實際上等於是用外插法 (extrapolation) 取得。用 normal values 來估計 extreme value distribution，或者借用近年新興的說法，以白天鵝來估計黑天鵝 (black swan)，是任何受過良好基本統計訓練的大學生，都不會視為可靠的做法。

這不是說水利工程師不會用只得幾十或一百年的資料來估計「二百年一遇」事件的規模。事實上，以我們香港的渠務署為例，它對於市區排水幹渠系統（urban drainage trunk system，「幹渠」即是排駁大型集水區、防洪標準最高的渠道）與鄉郊的防洪堤堰 (flood protection bund) 的設計標準，是必須能應付「二百年一遇」的水浸。只是，工程師除了要對特定的重現期估計洪水或降雨規模之外，還要估計有關的信賴區間 (confidence interval)。更重要的，是渠務署會不時監察排水系統的表現，而不是紙上談兵。「重現期」是用來幫助工程師估計排水系統所需的設計參數，並非供官員於洪水雨災發生後用作遁辭。

Alone in the Fart

2014年3月21日星期五

網文偶讀之百年一遇

沒有留言:

Recently read

堆填區

語文工具書

Label