觀念:抽樣調查的誤差 與賽馬式民調


Uncategorized

黃金交叉,或者,一直未到:試論抽樣調查的誤差

圖片來源:立場新聞。

圖片來源:立場新聞

6月11日,香港三家大學的政改民意調查,指6月3至7日的調查,反對比例首次超過支持比例,媒體隨即形容民意出現「黃金交叉」。同一調查,最近兩輪支持的比例再度領先。

官員,政黨,民間團體,媒體,以及不少市民搶先回應,有時未能仔細閱讀調查設計。有些就因為調查不合心意,質疑民調是否可信。

因為調查只是抽樣,而非普查,樣本統計跟總體(學術名稱是「母體」,population)參數會出現差異。研究員需要嚴格監察民調,減少誤差;如果有誤差,或者樣本有偏頗,研究員需要公開解釋,讓讀者注意。

同理,如果要挑戰研究,可以留意研究裡面各項誤差。

我沒有參與政改民意調查,只能靠公開資料給意見。本文想說的是,「黃金交叉」,或者一直未到。

「黃金交叉」,或者一直未到

媒體引用6月11日的政改民調結果,反對政改方案的有43.0%,首次超越支持的41.7%,於是形容民意出現「黃金交叉」。事實是,黃金交叉,或者,一直未到。

研究機構以至政府也沒有資源,在幾天內進行全港普查,於是只能抽樣本,由樣本推斷市民總體取向。最常用的是電話調查。

調查機構發放樣本資料,指「在95%置信水平(confidence interval)下,各個百分比的抽樣誤差不多於+/-3.0個百分比」。

即是說,調查只能推論,如果進行100次同樣調查,有95次調查,反對政改的比例,是在40.0%至46.0%這個範圍(即是反對方案的43.0%正負3%;同理,支持政改的比例在38.7%至44.7%這個範圍)。這個誤差範圍包含香港市民正反的真正比例。最大機會出現在定點值(43.0%及41.7%)。另外,有5次機會,結果落在這兩段範圍以外。

圖片來源見此

即使排除那5次「不幸」,因為支持和反對的範圍重疊,真實情況仍可以是支持者佔多。這是黃金交叉可能一直未到的意思。

用射戰做比喻,陳大文射了100支弓箭,有95次中了靶(即是紅心附近),甚至中了紅心,但有5次連靶也射不中。

現實是,我們每段時間只能做一次抽樣調查,所以根本不知道結果有否包括實際比例。我們對於統計結果的信心,是來自於統計學的中央極限定理(central limit theorem)。

在大多數情況下,調查機構只會取一個樣本,而非兩次,更不用說100次。沒有人知道這個樣本所產生的置信區間,是否包含真正平均數。所謂的95%,並不是一個機率值,所以不可以理解為,在此一區間出現真正的平均數的機率是0.95。

用射箭的比喻,這表示我們不可理解為射中紅心的機會是0.95。同理,我們不可理解為,有95%機會,真正總體反對政改方案比率為43.0%,

通俗一點說,置信水平95%的意義,是我們大約有95%的「信心」確定這次調查得到的置信區間,會包含未知的總體真正定點值。在該次政改調查,反對政改的比例,是在40.0%至46.0%這個範圍,而這個範圍包含香港市民正反的真正比例。

如何減少抽樣誤差?

既然說,支持反對的範圍重疊,那麼我們可以減少抽樣誤差?

可以,例如到正負1%。要減少誤差,代價是樣本數目要按比例大幅增加。政改民調的誤差範圍是正負3%,調查需要至少成功找到1,067位市民。如果要減少誤差範圍正負1%,機構就要找到至少9,604位市民。如果再要增加置信水平至99%,即每100次做調查,有99次也包含真正的正反比例,機構就要找到至少16,588位市民。

圖片來源:維基百科

這是不可能的,用這次民調為例,幾十位研究助理5天打了42,305個電話,才有1,115個成功樣本。可想而知,要找到10,000位,需要打多少個。

以上說的誤差,是抽樣誤差,無可避免,但可以用方法計出範圍。正如陳電鋸和傅景華指出,「隨機電話抽樣有可能抽到大量只持某種意見的受訪者,也是為何研究要以統計學方法計算誤差範圍(margin of error)」。一項調查,還有幾種誤差,導致樣本不夠代表總體民眾意願:

「干擾因素在電話隨機抽樣調查,可見於年輕與年老人士所持意見可能有所不同。如隨機取樣出現較多年長人士(尤其是以固網電話為主的民調),可能會令總體結果偏向於年長人士意見。一般解決方法是將民調結果根據人口普查的人口結構進行加權處理,減少此類外在干擾因素的影響。

研究偏誤是指研究方法本身會影響民調結果,最常見的就是既定觀點的民調問題(loaded question)。這亦可解釋何以不同機構進行同類民調,會出現不同結果的原因。」

不過,話說回來,如果一份問卷,用相同抽樣方法,問相類似的訪問者,回應率次次相若,結果仍發現支持政改比率下降,那就更能確定總體市民支持率下降。

何時才可說「黃金交叉」無誤?

我問統計朋友,假設統計過程合規,何時才可說「黃金交叉」無誤?他說「反對比例較支持的多出6%,才能肯定支持、反對的置信區間沒重疊吧」。

後記(+鳴謝)

一直事忙,加上統計知識未到家,到這刻才上載此文,實屬太遲,唯有當作統計補丁。鳴謝幾位統計達人賜教,並幫忙閱讀初稿。文責自負。

發表者:一蚊健

Be curious, humble, not judgmental.