美國民調專家想方設法解決和補償大選民調的不足,但無論如何調整和處理,都意味著數據會有系統性的偏差。(美聯社)
美國大選進入衝刺階段,所有焦點都放在七個搖擺州。計有北方鐵鏽三州(威斯康星、密西根、賓夕法尼亞)、南方陽光帶四州(東岸的北卡羅萊納、喬治亞,西部的內華達、亞利桑納)。其他四十三個州幾乎沒有任何意外。但這七個州形勢之緊張,什麼結果什麼組合都可能發生。
目前的選舉地圖形勢是,如果民主黨拿下北方鐵鏽三州,就能以法定的最少差距,一票之差(270票,超過平手269票)贏得總統之位。賓夕法尼亞州作為七者中選舉人票最多的州,又是形勢最激烈的州,是關鍵中的關鍵。
在民主黨剛剛「換登」之際,哈里斯的呼聲甚高,一下子反超川普,明顯領先。然而,隨著時間的推進,川普在民調上不斷猛追,現時反有後來居上之勢。
我們看民調預測網站538的平均民調走勢圖,藍色是哈里斯,紅色是川普。
可以看見,這七個州的平均民調的走勢相當一致,就是「川升哈降」:在三個陽光帶州(北卡、喬治亞、亞利桑納),川普從一直持平,開始領先1~2個百分點;在三個北方鐵鏽州(威斯康星、密西根、賓夕法尼亞)和內華達,川普從中途明顯落後,到現在緊追幾乎拉平(哈里斯領先不足0.5個百分點)。
在去年台灣總統選舉中發生過柯文哲與侯友宜有關「民調統計誤差」的爭議,讓台灣人民普遍受過一次統計教育,都知道看民調不能只看一個數字,還要看95%置信度的誤差範圍。對千人左右樣本,誤差範圍是正負3%,即有95%的信心,真實支持率在這個數字的正負3%範圍內。如果是兩個候選人的對比,那麼雙方支持率只有相差4.5%(3%*Ö2»4.5%)以上,才有95%的信心認為,領先的會贏。
美國民調的樣本和台灣的差不多(都是千人級別),但以上538的總結,是對多個民調取捨、加權、調整、平均,95%的置信度的誤差範圍要比3%窄一些(意味更準確)。但雙方的差距依然在這個縮小後的誤差範圍之內。這麼小的差距意味著在統計學上,我們根本無法有足夠的信心能預測誰會獲勝。
換言之,這七個州的結果,無論誰勝誰負,都不意外,儘管現在看來,川普的勢頭更被看好一些。
當然,也有很多人不這麼認為。比如一種理論就是,民調「偏幫民主黨」,所以除非民主黨領先很多,否則實際投票結果就是川普贏。於是,很多人確信,川普不但能贏,還能大勝。
民調準不準?在以往大選中都有爭議。
比如2016年大選,大部分民調都認為希拉蕊的贏面更大,但結果是川普贏。在2020年大選中,在絕大部分搖擺州州,輸贏和民調預測基本一致,但輸贏的幅度卻產生一些誤差:拜登贏得沒有那麼多。在這兩屆投票中,普選票的輸贏結果和全國性民調的支持率基本吻合。民主黨都贏了普選票。但在2020年選舉,在選前民調中,拜登的全國支持率領先達到12個百分點,但拜登普選票雖然贏了700萬,卻只領先川普約4個百分點。
這樣看來,好像是民調都偏幫民主黨。但反過來的例子也有,如再前一些的2012年選舉,民主黨的歐巴馬在民調中只領先羅姆尼一點點,預測是非常緊湊的選舉。然而,歐巴馬最終卻輕取羅姆尼。
當然,如果把川普理解為非傳統的共和黨人,那麼依然可以推論,民調「系統性地不利於川普」。
那麼這種情況在今年會不會出現呢?目前如此緊湊的民調數字可不可信呢?這個相信也是結果出來之後才知道,但一些因素可以分析一下。
第一,如上所述,民調數字是有誤差範圍的,但傳媒一向不報導這個誤差範圍。這當然也不能怪媒體,誰讓這些數據「不抓眼球」呢?如果考慮誤差範圍,實際上大部分搖擺州的數據都沒有那麼不可思議。一些fancy的、戲劇性的表述方式,則加大了公眾對「民調很不準」的印象。比如2016年選舉,紐約時報就有一個「希拉蕊選舉獲勝機率隨開票進程的變化圖」,希拉蕊的勝率從開票前的80%一直降到百分之十幾。事實上,獲勝的機率和民調僅管是相關的,但並無簡單的換算關係。機率對比大大地放大了民調的誤差。
第二,民調也不能直接等同於選舉結果,投票率是最重要的差異來源之一。簡單地說,即便民調準確,如果某選民支持了川普,但又沒有去投票,那麼支持了也等於白支持。如果把支持率轉化爲選票,最重要的工作就是鼓動支持自己的選民去投票。絕大部分的基層助選員就是幹這個,不斷打電話、發短信、敲門、派傳單,提醒選民去投票,現在還會用上社交媒體去催票。
第三,如果回過頭來看這兩次選舉的民調數字,就會發現實際並不一定全然是民調有問題。
比如,2016年選舉中,由於希拉蕊在選前不足十日,發生「二次電郵門」事件而大受影響,於是最後時刻的民調川普是急起直追的,在不少搖擺州,已進入誤差範圍內。但媒體的報導中,卻基本忽略了這些最後一刻的變化,以及一向忽略了誤差範圍。當年筆者緊密追擊紀錄選舉全程,對此印象很深。
又如在2020年大選中,由於因為疫情原因,史無前例地使用了大規模的郵寄投票,讓傳統的預測模式無法跟上。
第四,解釋2016年民調「不準確」的一個理論是,川普有大批「不敢公開的支持者」。說的是,川普由於「政治不正確」,於是即便被調查的選民支持他,也因為害怕「政治不正確」,不願說出自己真正支持的是川普。
這個理論即便是正確的,但過了八年,隨著美國民風向右翼回擺,這種因素也已經大大減少。至少根據筆者觀察,現在早已沒有什麼人「羞於」說支持川普了。
第五,現在民調的難題,反而是針對年輕人的民調非常難做。因為民調大部分沿用傳統的方式「打電話」,無論是打市話,還是打手機。現在的問題是,年輕人根本很少依賴「打電話」作為通訊方式。他們有手機,但主要的通訊方法是用手機上的App,諸如Snapchat這些。而這些人群,又是民主黨最重要的支持者。民調結果無可避免地會低估了有利民主黨結果。
第六,現在由於選民已經站隊化,因此對「對家」的民調非常反感。保守派聽到CNN要來做民調,可能立即掛電話。自由派聽到「Rasmussen」民調,恐怕也說不了兩三句。於是一家民調川普領先,第二天另一家民調又是哈里斯領先。這往往不是反映民意左右橫跳,而是前一家是保守派的民調,後一家是自由派民調之故。
民調專家當然會想方設法去解決和補償這些數據的不足,但無論如何調整和處理,都意味著民調會有系統性的偏差。不過,如果把這些因素都綜合考慮起來,就有可能互相抵銷。於是最後得出的結論,恐怕還是民調數字依然是可靠的,但必須有正確的分析和理解。
最重要的是,千萬不能抱著,「如果不作弊,民主黨不可能贏」的想法。在選舉結果出來之後萬一川普輸了,更千萬不能有先入為主地認為「民主黨作弊」,絕不能讓「一六國會山暴動」重演。
※作者為旅美學者