觀念:民調所追求的,應該是信賴區間中的真相
Published by 劉正山,
Clip source: 觀念:正確理解民調所代表的是區間中的真相,不是單點就是真相
這篇說得很清楚,圖示也很棒,有助於釐清老師課堂中提過的「別把民調當賽馬看」的觀念。
民調結果和滿意度排名能反映真實嗎-《菜市場政治學》書摘之二
陳方隅 2018年09月20日 00:01:00
我們不需要去造神,也不需要去追問某幾位上升下降的縣市長說有什麼感想。統計是很有趣的東西,但也很容易拿來混淆視聽。(圖片取自PAKUTASO)
生活中處處皆民調 我們至少要學著讀懂它們
80%的韓國人說喜歡吃泡菜,75%的日本人說喜歡吃壽司,所以泡菜贏過壽司?——網路鄉民
平常我們在報章雜誌上常常可以看到各式各樣的民調數據,尤其在選舉期間,民調更是大量被使用及報導,包括候選人的支持度、對現任者的評價等等,都是很常見的民調內容。即使是在非選舉期間,民調也是用來檢視人們對某些政策或者政治人物支持程度的主要工具之一。
例如,幾家規模較大的媒體每年都會固定發布「縣市長滿意度調查」,而每次報告出爐,總會引起新聞媒體的大幅報導,尤其大家常常把焦點集中在某幾位政治明星身上。其實,若了解一些統計或調查研究的原理,應該要能判斷,這樣的「排名」就是僅供參考而已,並不能反映真實狀況。在這裡,我將用「全台縣市長滿意度調查」當作例子,帶讀者們來理解一些民調抽樣的眉眉角角,認識一下專有名詞。
民調的背景脈絡問題
首先,這樣的民調總是無法避免「張飛打岳飛」的謬誤,因為「主觀」的民調數據是不能拿來做排名比較的。在各縣市「分別」抽樣調查,每個地方應視為獨立的一次調查。「滿意」是一個主觀的形容詞,其定義對每個人來說都不一樣,在各縣市也可能會有所不同,受訪者的回答也會受到很多因素的影響,例如調查時間、最近該縣市有無重大事件與爭議、訪員素質等等,如果要拿來排名比較的話,必須假設所有人都是以同樣的方式理解同樣的問卷問題。
註
更多
如果從生活中的例子來看,假設今天有一份調查告訴大家說80%的韓國人說喜歡吃泡菜,75%的日本人說喜歡吃壽司,難道我們可以下結論說泡菜贏過壽司?
讓問題更複雜的是,有些媒體的調查是用加權算出的分數,例如去問民眾總體施政滿意度幾個不同面向的滿意度,再請一組專家來評論總體滿意度(10%)和分項滿意度(10%)。
然而,各縣市的民眾對這幾個不同面向的理解有可能會是非常不一樣的。在專家學者部分的加總也是有點問題,因為媒體往往是請來各縣市不同的專家學者做評比。這樣的多指標民調好處是可以補足以往民調單一問題的不足,但是要直接加總主觀的意見並且做排名是不適當的。只有客觀的數據可以直接拿來排名,主觀的數據不行。
民調的抽樣誤差問題
第二,也是最大的問題之一,就是這個排名沒有考慮到抽樣誤差。如果我們以某年份的縣市長滿意度調查為例,面對樣本數的不同,根據調查單位的說明,「當信心水準在95%時,每個縣市的抽樣誤差為正負3.1至4.2個百分點」。這句話是什麼意思呢?讓我們來談談一點統計原理吧!
其實,我們並不知道真實狀況之中一個縣市長的滿意度到底是幾趴,因為我們不可能調查每一位居民,所以只能抽樣。只要有抽樣,一定有誤差,而且,這個誤差值的大小是依據樣本的數目來決定。
註
更多
讓我們假設一下「真實狀況」:一個縣市有100萬人,然後有60萬人對縣市長滿意,40萬人不滿意,真實滿意度是60%(這個真實的數據,我們稱作「母體平均數」)。
假設今天我們從100萬人當中抽1,000位左右出來,我們不可能剛剛好抽到600人是覺得滿意而400人是覺得不滿意,有可能某次調查剛好都抽到一些相同意見的人,有時候會抽到那40萬說不滿意的人多一點,有時候抽到那60萬說滿意的人多一點。統計學家告訴我們,如果我們抽樣無限多次,把每次抽樣得到的平均滿意度都記下來,這無限多次抽樣得到的滿意度會呈現常態分布(可想像成:把這無限多次的滿意度平均起來,會接近真實的60%)。不過,最大的問題就是——我們每個民調都只能抽一次!
在這個圖中的縱軸代表抽樣時間不同,橫軸則是民意分布的百分比。每條線都是一次抽樣的結果;每抽一次會得到一個平均數(樣本平均數,即圖中的「點」),再加減誤差後,形成信賴區間。(圖片來源:作者自繪)
因此,雖然字面上是「誤差」,但這不是一件壞事。抽樣調查的結果,我們會加減誤差,說是一個區間值。「當信心水準在95%時,某縣市的抽樣誤差為正負x個百分點」意思是說,每抽樣100次會有100個區間,而統計學家宣稱這100個區間,有95次的結果會包含「真實的那個母體平均數百分比」。
註
更多
所以問題來了,如果拿2015年的一份「縣市長排名」來看,抽樣誤差隨著樣本數的不同,在每個縣是3.1%至4.2%,其實很多縣市長的滿意度之間根本沒有「統計上的顯著差異」。假設以750份樣本來說,誤差是3.5%左右,像是第三名的高雄市長陳菊,其施政民調是落在69.6%加減3.5%之間,最低有可能是66.1%;第九名的澎湖縣長陳光復,分數可能落在63.08%加減3.5%,最高有可能是66.58%。換句話說,第三名和第九名的縣市長,總體施政分數的民調結果可能是沒有顯著差異的。
註
更多
比較好的方式,應該是做一個等第。例如有幾位首長落在第一等第(或是五星之類),幾位落在第二區(四星),幾位是在墊底區。但是這種方式有個爭議,就是如何訂出幾星或幾區的標準。這時候,媒體如果寫一個標題「五星縣市長」之類,還是一樣可以製造聳動效果。
可以確定的是,用主觀的調查資料來做個別的排名不僅是做不到,而且也沒有意義。以往的調查當中,每次媒體都會去排出一位首長跟去年相比進步或減少幾名這樣的資訊,這次也不例外。不過,有時候可能單純就是因為抽樣誤差而造成的排名改變而已。
例如,在2015年調查當中,《天下雜誌》在第一段就特別點出當時的台南市長賴清德總體施政滿意度減少2.4%,並說「『賴神』的高人氣已出現反轉訊號」。但是這仍然在抽樣誤差之內,也就是說今年的88.1%和去年的90.5%是沒有統計上的顯著差異的。
在2016年調查的第一段就寫說「國民黨執政縣市首度出現一致性微幅進步」,但所謂「進步」的分數大都在抽樣的誤差範圍內,這種分數或名次上微幅的進步有可能都是由抽樣誤差造成的,不是真正的進步。不過,媒體有銷售市場考量,可能一定要做排名才夠有新聞話題性吧?
註
更多
民調的執行問題和詮釋問題
第三,電話調查有一些侷限性。例如現在很多人持有手機及行動上網的裝置,但沒有室內電話,尤其年輕族群、在外工作或讀書的族群;例如若是白天做調查,則上班族永遠不會被調查到。
所以這個樣本的「代表性」很可能會有一些問題,也就是說可能會偏向某一類工作型態的人的意見。另外,在執行問題方面,問卷內容的問法、選項內容和排序等都會直接影響回答結果,
註
更多
這種引導式的問法在縣市首長調查當中的問題可能比較不大,但在許多政策類的民調當中常常被用來操作結果。
第四,永遠要對媒體保持一定的質疑,千萬不要照單全收。媒體可能會下標引導讀者,或是加入一些主觀的見解。例如在2015年的報導中強調「柯P神話不如預期」因為他「只」排在第九名,然而,一看內容發現其實柯文哲上任以來,總體滿意度比前任郝市長高了19%。
又如報導中說連任的首長「表現不突出」,但看一下內容,發現其中被說是「退步」的東部三位首長黃健庭、傅崑箕、林聰賢,其實不過就是整體滿意度從「超過八成」下降到「接近八成」,這種程度的滿意度叫做退步,有點說不過去吧?
第五,近幾年某位「五星縣長」被爆料出來,在提供非常大量的廣告及專案的標案給某媒體之後,該媒體就很恰好地出現了五星報導,大家才知道原來這個五星標題,「有可能」是買來的。當然,我認為還是要去看媒體對於調查研究方法的說明是否完整,對於網路訊息也不可以全部相信。只是,現在民調數據充斥媒體報導,我們隨時要保持開放的態度去檢證很多事情,尤其在這種業配新聞滿天飛的時代。
小結
綜上所述,縣市長滿意度排名就是給人們一個參考。我不是說我們完全不需要民調和評比,這篇文章的重點是,在不同縣市分別做調查之後,拿來直接做排名,在學理上是說不通的。因此,我們不需要去造神,也不需要去追問某幾位上升下降的縣市長說有什麼感想,反正他們的答案一定是謝謝指教,團隊會再加油。統計是很有趣的東西,但也很容易拿來混淆視聽。知道一點基本的統計常識是很重要的。
更重要的是,民調高低跟真實施政的狀況,往往也是有差異,民調高更不代表就不用再監督這位首長了。
註
更多
因此,除了主觀的意見很重要,在客觀的數據(例如縣市財政狀況),還有許多爭議事件的處理、人權保障方面,我們都應該持續監督政治人物才對。
※本文摘自《菜市場政治學:選舉專號Who Governs?》/作者為政大外交系、台大政治所畢業,美國密西根州立大學政治所博士候選人,主修比較政治,研究興趣包括威權政治、民主化、政治行為/左岸文化出版