2014年3月21日星期五

網文偶讀之百年一遇

  1. R.J. Oosterbann, Frequency and regression analysis of hydrologic data (pdf) 
  2. Floods: Recurrence intervals and 100-year floods; USGS 
  3. 看香港如何防“水浸” 排水干渠系统200年一遇;北京晚報,2012年07月22日 
  4. 香港渠務署網頁
兩年前七月廿一日的北京暴雨,據說令全中國非常感動,各人為了賑災,有錢出錢,有妹捐妹。內地大部份的報章都稱此暴雨為「百年一遇」,局部地方的單日降雨量甚至是「五百年一遇」云云,惹來網民嘲弄,謂「在我短短的一生裡,百年一遇的洪水見過10次,千年一遇的地震見過2次,唯獨四年一遇的全民大選還沒遇見過」。這句譏諷話獲內地網民瘋傳之餘,報章亦有人指摘「官方」以「百年一遇」之說來推卸責任,例如《金羊網》就有篇專欄文章說:
筆者認為,說白了,無論是推出“40年一遇”、“60年一遇”、“61年一遇” 之說,還是拋出“百年一遇”、“接近五百年一遇”之論,無非就是想告訴大家︰這是老天爺的錯,要怪就怪老天爺去吧。

「百年一遇」的定義
「百年一遇」指的其實是自然現象的重現期 (return period)。「重現期」是大學專科(譬如水利工程學)術語,但它牽涉的統計概念只屬高中程度。簡單來說,若某自然現象 A,於某單位時間(譬如一日)內發生的機會率為 p,那麼其重現期(譬如以日數計),就是 1/p 個時間單位。

詳細一點來說,當我們談及重現期的時候,背後假設了 A 於每個單位時間內發生與否,皆為獨立事件,亦即是假設 A 是 i.i.d. Bernoulli(p),而所謂 A 的重現期,就是距離下一次觀察到 A 所需的平均時間。譬如我們以日為單位,現在是第一日的開首,而下一次要第 $T$ 日才觀察到 A,那麼 A 的重現期,以日數計就是 $E(T)$。很明顯:
  • 第一日就觀察到 A(亦即 T=1)的機會率為 $p$;
  • 第二日才觀察到 A(亦即 T=2)的機會率為 $qp$($q=1-p$);
  • 第三日才觀察到 A(亦即 T=3)的機會率為 $q^2p$;
  • 第 n 日才觀察到 A(亦即 T=n)的機會率為 $q^{n-1}p$;
  • 故此 $E(T) =  p + 2qp + 3q^2p + ... + nq^{n-1}p + ...$(練習)。若讀者念過大一統計學的話,當然知道 T 依隨的實乃參數為 p 的 geometric distribution。
「重現期」既是科學術語,有關現象的定義自然要準確。假若我說「雨是 7.5 日一遇」,是沒意思的。換作「天文台沙田氣象站的雨,是 7.5 日一遇」好一點,因為指明了事件發生的地方。換成「天文台沙田氣象站錄得 40 毫米以上的單日降雨量,乃 7.5 日一遇的事件」就更好,因為說明了談話者所關心的是多大的雨。

網民嘲諷中共「官方」稱這次事件乃百年一遇,然而我找過一些內地大報,如《人民日報》、《光明日報》與《中國日報》,若不計轉載內容,它們均無提過該暴雨為百年一遇,例如《中國日報》一篇報道就只是說這次是 the most devastating downpour in the Chinese capital for 61 years。中國氣象局、北京市氣象局及其轄下機構好像也沒有以「百年一遇」來形容該次暴雨。所以,公道一點地說,當時的「百年一遇」之說,並未得到中共中央或氣象部門認可。

一些北京報紙,如《北京青年報》、《新京報》或《北京晨報》,倒報道過「百年一遇」一說,而且它們的消息來源皆為「北京市人民政府防汛抗旱指揮部副指揮潘安君」。據《北京晨報》報道:
市气候中心昨天公布的数据显示,比起21日历史罕见的大暴雨,自1951年有完整气象记录以来的京城历史上,单日降雨量排名“亚军”和“季军”的降雨日分别为1952年7月21日和1954年8月9日,但老天爷降下的雨水比起“冠军”却远远不及。
   昨天,市防汛抗旱指挥部副指挥、市水务局副局长潘安君通报了此次特大暴雨的四个“历史罕见”:降雨总量之多“历史罕见”,全市平均降雨量170毫米,城区平均降雨量215毫米,为新中国成立以来最大一次降雨过程,房山、城近郊区、平谷和顺义平均雨量均在200毫米以上,降雨量在100毫米以上的面积占本市总面积的86%以上;强降雨历时之长“历史罕见”,一直持续近16小时;局部雨强之大“历史罕见”,全市最大点房山区河北镇为460毫米,接近五百年一遇,城区最大点石景山模式口328毫米,达到百年一遇,……
從上述報道,可見:
  1. 潘安君只說過而北京當日的全市單日平均降雨量屬「新中國」成立以來之冠,並沒說此降雨量是「百年一遇」。
  2. 然而他確有聲稱「石景山模式口」當日雨量是「百年一遇」,更說「房山區河北鎮」的降雨量為「五百年一遇」。

如何估計重現期
前面提到一個現象的重現期,是距離它下次發生的平均時間。要估計這個期望值,從文獻所見,常用方法似有三種。

第一種是以簡單的相對頻數來計算事件發生的概率 p,從而推算重現期 $E(T)$。舉例說,若根據過往記錄,某 B 區於過去十年(n = 3652 日)當中,有 m = 13 日的單日降雨量超過 100 毫米,那麼,對於「B 區的單日降雨量達100 毫米以上」這個事件,我們所估計的 p 就是 $\frac{m}{n} = \frac{13}{3652} = 0.0036$,而此事件的重現期為 $E(T) = \frac1p = 281$ 日,或者 0.77 年。因此,若今天 B 區剛巧錄得 100 毫米以上的單日降雨量,我們可以稱這場雨為「0.77 年一遇」。

第二種方法是用有序統計 (order statistics)。假設我們將前例中 3652 個單日降雨量由大至小排列,發現當中排第 r = 13 的單日降雨量為 102 毫米,那麼,對於「B 區的單日降雨量達 102 毫米以上」這個事件,我們估計 $p = \frac{r}{n+1} = \frac{13}{3653}$(留意此處與第一種方法不同,分母為 n+1),而重現期為 $E(T) = \frac1p$,同樣大概是「0.77 年一遇」。

第三種方法是 distribution fitting,亦即是將過去的觀測記錄模配到理論上的統計分佈之中。若模配的是長期平均值的分佈的話(例如每年平均單日降雨量),由於大數定律,用 normal distribution 就可以了;若模配的是最大值的分佈的話(例如每年最高單日降雨量), 較常用的則有 Gumbel distribution 與 exponential distribution 兩種。如何將觀察資料模配到理論分佈之中,或者如何檢定模配的合適度,是大學統計學的內容,此處不贅。

假設我們手頭上只有某地過往 N 年的單日降雨量記錄,可以證明(練習),無論今日我們觀察到該地的單日降雨量為何,若用上述頭兩種方法,而且 Y>N+1,我們是絕無可能得出今日這場雨是「Y 年一遇」這個結論的。《北京晨報》說北京自 1951 年起有完整氣象記錄。其實中共建政後,北京於 1951 年建立第一所氣象站,當時是否已有「完整氣象記錄」,不得而知,但就算有,從 1951 年至 2012 年才不過 61 年,因此,若說北京雨災當日,「石景山模式口」的降雨量是「百年一遇」,甚至「房山區河北鎮」的降雨量為「五百年一遇」,是絕無根據的。

若用的是第三種方法,由於所用的分佈是伸延至無限大的連續曲線,無論如何大的降雨量,我們也的確可以估計出它的重現期。問題是,若降雨量像前述的北京暴雨那樣,完全高於過往最高記錄,則如此推算出來的重現期,實際上等於是用外插法 (extrapolation) 取得。用 normal values 來估計 extreme value distribution,或者借用近年新興的說法,以白天鵝來估計黑天鵝 (black swan),是任何受過良好基本統計訓練的大學生,都不會視為可靠的做法。

這不是說水利工程師不會用只得幾十或一百年的資料來估計「二百年一遇」事件的規模。事實上,以我們香港的渠務署為例,它對於市區排水幹渠系統(urban drainage trunk system,「幹渠」即是排駁大型集水區、防洪標準最高的渠道)與鄉郊的防洪堤堰 (flood protection bund) 的設計標準,是必須能應付「二百年一遇」的水浸。只是,工程師除了要對特定的重現期估計洪水或降雨規模之外,還要估計有關的信賴區間 (confidence interval)。更重要的,是渠務署會不時監察排水系統的表現,而不是紙上談兵。「重現期」是用來幫助工程師估計排水系統所需的設計參數,並非供官員於洪水雨災發生後用作遁辭。

沒有留言: