︿

【數字公民】「薪水太低,我很抱歉」 國民薪資該看平均值還是中位數?

如果下一次有個政客引用數據說「平均收入增加」,他說的那個因素可能不會對所有納稅人都有同樣的影響。(湯森路透)

如果下一次有個政客引用數據說「平均收入增加」,他說的那個因素可能不會對所有納稅人都有同樣的影響。(湯森路透)

測量差異和不均

 

歡迎來到沃比根湖(Lake Wobegon),這裡每個女人都強壯,每個男人都俊俏,而且每個孩子都在平均值以上。

—蓋利森.凱勒(Garrison Keillor,美國作家、配音兼電台主持人)

 

— 2015 年英國的平均稅後收入大約是24000英鎊。那是個大數字嗎?

— 加拿大較貧困的半數人口擁有全國財富的12%。那是個大數字嗎?

— 2015 年,全球12% 的人口過著赤貧生活。那是個大數字嗎?

 

英國索普公園(_orpe Park)的「無影飛車」(Stealth)的設計基於一個非常簡單的概念。乘客出發後,幾乎瞬間就會沿垂直軌道下滑。在沒有追加推力的情況下,他們又爬上了頂端(62 公尺高),接著又立刻垂直下降。這真的滿恐怖的。列車接著緩坡向上,然後減速完成一圈。整趟行程僅僅花不到半分鐘,而整條軌道則有半公里長—那讓平均速度來到每小時60公里,就數字本身來看其實沒多了不起。

 

但這裡真正的重點是速度差異。乘客在2秒內從靜止起點加速到每小時129公里,接下來往上滑時失去了大部分的初速, 然後就在恐怖的落下中失而復得。速度的變化感覺起來就有如G 力,而那就是讓過程驚悚的理由。平均值不一定每次都能呈現全貌。

 

在美國德州的休士頓,8月的平均風速大約是每小時5.5公里。但在2017年8月26日,颶風哈維(Hurricane)以超越每小時200 公里的風速登陸。為災難做準備的時候,平均值沒什麼大用。你需要知道天氣狀況怎麼變化,並希望能正確預料到極端值。

 

而那就是不少數字及都會碰到的情況:有時候平均值毫無意義,有時候平均值會完全誤導人。2013年,英國納稅人平均稅後收入比24000英鎊略多,但大部分的薪水族(其實是65%的薪水族)的稅後收入比這平均數還低。原因就在於若是談到收入,我們面對的是偏態分布(skewed distribution)。

 

以下是該收入統計資料集的長條圖,顯示了分成九段的收入各有多少百分比的人口(2013年英國納稅人稅後收入):

 

 

這個偏態很清晰:有相當多的納稅人收入偏低,少數有較高收入,還有非常少的人(沒有顯示出來,他們數量少到無法畫成有效圖形)收入相當豐厚。不可免地,在數學上那些少數非常高的案例所產生的效果,就是把平均值拉高。因此我們很清楚看到,24000 英鎊是計算平均值,但顯然不是普遍數字。2

 

我們使用平均值有部分原因是因為比較容易處理。平均值讓概略計算變得簡單,而在研究及寫作本書時,我也忝不知恥地在各處使用平均值來簡化大數字,好把它們拉下凡間,來到人類尺度。但平均值有一個均質化效果,含有一種假設,認為不管用來算出平均值的基數(比如全體納稅人口)是什麼,身為該基數的每個成員都是均等的。舉凡我們做人均計算,這種識數公民的工具箱裡面一定有的計算方法,我們就是在算平均數,也因此有可能會漏失眼前觀測數據的變化性。我們通常能做到最好的也只到如此,而且這通常也是值得踏出的第一步, 但我們應該要小心這當中的危險。

 

每個統計學家的工具箱裡都裝了一套用來概述這些資料集的標準描述統計。這之中的第一個是平均數(mean),是我們多數人會稱為「平均」(average)的東西。接下來是變異數(variance),就如其名,是一個資料相較於平均數的高低差異值。第三個是分布的偏態係數(skewness),是不勻稱程度的度量衡。3對一位統計學家來說,這些描述統計可提供不少洞見, 但對非統計學家來說,這些數字可能會很難解讀。如果我們使用平均數,我們會失去很多資訊。更糟的是,我們到頭來可能會給出錯誤的印象。

 

當我們就納稅人平均收入提出報告時,我們通常想傳達的是某種「什麼是尋常狀態」的意義。因此,平均數在此會誤導人。在這個例子中,比較該用的是收入中位數,那指的是把整套資料集分成兩半:中位數以上和以下的資料「個數」會一樣多。若要歸納中位數做出的資料統計,可去觀察有多少案例落在中位數圖中的每一段百分位數長條裡,也就是觀察收入最低的10%納稅人賺多少錢,然後接下來的10% 納稅人賺多少,如此類推下去。


我們顯然不太可能對新聞裡看見的每一個統計數字都做這種分析,但請記住,如果下一次有個政客引用數據說「平均收入增加」,他說的那個因素可能不會對所有納稅人都有同樣的影響。

 

2 論證數據出現偏態的另一種方式:如果們我把這種納稅人分布狀態中的前10% 和後10% 都去掉(在對稱分布中應該不會改變平均值),平均收入會掉到21000 英鎊。這顯示前10% 的「拉高力」,遠比後10% 的「拉低力」強上太多。

3 這些稱為矩分布(moments of the distribution)。而且還不止於此:第四個是峰度(kurtosis),測量分布的尾端有多重。在那之後,對矩的意義解讀就會變得更困難。

 

作者簡介

安德魯.C.A.艾略特 (Andrew C. A. Elliott)

安德魯在南非東開普省長大,在開普敦大學學習統計學及精算學。他於1980年代末移居英國,以將精算技能運用於金融系統圈。擔任一段時間的管理顧問後,安德魯於2003年與他人共同成立了「開放廣場」(Open Square),並於2014年成立「革新系統」(Revolutionary Systems),探索基於柔性模型建立的系統。由於對媒體和公眾討論中數量資訊的呈現方式感到失望,安德魯於2016年啟動了「那是大數字嗎?」計畫,藉以推廣識數能力並開發直覺數字感,而成立了isthatabignumber.com網站。本書的某些部分就是源自於創建網站背後的思考。

譯者簡介

唐澄暐

政治大學新聞系、台南藝術大學紀錄所畢業。曾任《台灣立報》國際版版主及編譯。喜愛怪獸及幻想作品,目前同時從事翻譯及怪獸小說寫作。譯有《世界觀:現代年輕人必懂的科學哲學和科學史》、《五十億年的孤寂》、《地球之後》、《怪獸大師圓谷英二》等書。著有短篇小說集《陸上怪獸警報》。

 

購書連結:數字公民:如何打造你的識數世界觀,輕鬆成為現代公民!

 

關鍵字: 數字公民





【加入上報國際圈,把繽紛世界帶到你眼前!】

提供新聞訊息人物邀訪異業合作以及意見反映煩請email至國際中心公用信箱: intnews@upmedia.mg,我們會儘速處理。

 

 

 



回頂端