Home Artists Posts Import Register

Content


以下文章來自一位英國網友,也是香港名門之後,獲授權和大家分享。

--------------------------------------
我係一個人工智能從業員(Data Scientist),我亦有數學博士學歷,想講下近排坊間對美國大選有關不信任民調的想法:

1. 坊間開始吹奏大數據,即是用非傳統方法收集民意,從而判斷候選人當選機會。這個方法有兩個問題:
a. 難以統一、分析和整合數據收集的誤差(這類型的收集方法、效果每年變化萬千,很難有案例參考)
b. 承上點,選舉頻率較數據質素調整頻率低,所以很難用以科學方法去印證結果

2. 亦即是說,大數據方法有參考價值,但在選舉預測問題中難以規範化。人工智能一般的優勢在於頻繁的事態(event)和可以標準量化的數據收集上,這兩點優勢都是選舉大數據沒有的。

3. 如果某人用大數據方法預測川普當選,而川普最終真的當選,代表什麼?代表一個風水佬見到一個signal,就信誓旦旦的說事情必然怎樣怎樣,最終佢真係噏中咗。這有兩個可能性:
a. 負責做大數據的人,有一些難以言狀的直覺認為川普能夠當選,最終找了一些signal去支持自己的想法,再用以包裝成為大數據的必然結果。這就是Consultancy的business model。
b. 其二,好彩。

4. 民調是否不可信?是不可信,但嚴格上來說所有民調都不可信,每每因為sampling的方法、抽查的社區、社會原因,而各有誤差。但重點正正是誤差:民調是一項可以相對標準化誤差的證據,所以統計學家有條件去用數學方法去梳理這些誤差。

5. 所以坊間有人間唔中攞一兩個民調出嚟討論選情,這是不負責任的。因為每一個民調機構都有一定的誤差和系統誤差。譬如說,Rasmussen是有共和黨誤差的,而Survey Monkey是有民主黨的系統誤差的。但這不代表這兩個民調機構的數據沒有用,因為統計學家可以按著這些民調的往績去用Bayesian方法整合,務求去其稜角,而提煉出最精準的資訊。

6. 承4、5,現時美國大選的主流報導選情的方法,都是利用Bayesian等的綜合模型去疏理誤差。這是有限度之中最合理的方法。但有一個基本的問題往往難以解決,就是選舉之間的系統誤差差距非常飄忽。也就是說,有一些選舉週期(譬如說2016年),不知道為什麼系統性誤差會比其他週期大(2018年美國參議院、2012年美國總統大選等)。有歷史慣性但冇跡可尋的系統性誤差:正正是這類型民調分析的軟肋。

7. 我們可以用過往諸多選舉中的系統性誤差,去估算這個誤差的上下限,從而調整模型。但由於選舉頻率相對底(與1、2點相近),所以這個誤差會非常大。

8. 數學上,這是一個難以突破的難題。或者我們要習慣一下人生有諸多事情,都是事先無法確定的,這也是選舉的原意。

9. 而另一個有趣的問題,是為什麼有系統性誤差出現,而為何傳統上往往是保守一方更加受惠(如英國1992年大選的Shy Tory vote 令到馬卓安連任)?我覺得一個可能性,是左翼(或進取派,Progressives)的政治論述中將保守派的想法與正邪掛鈎。

譬如說:如果你不支持加強福利你就不單是錯,而且是邪惡。如果你不支持聘請黑人設有比例限額,你就是種族歧視,你就是邪惡,等等。而這些論述趨向主流化,因此持相反意見者,就不願在公共場合(如民調)承認自己的想法,但在不記名投票中,更願意投票予保守一方。

這一個想法,其實可以用社會科學方法做量化研究的,但我未見過有人做過。如果做呢一方面的研究,相信非常有趣,亦對以後的民調有所裨益。

(From Yu-Xi Chau)

Comments

Sean Leung

逆向歧視所產生的虛假民意

Anthony.K

第9我覺得好重要 無咩人會公開支持侵 因為有群眾壓力 我呢d outsider 無票響手 Fb 得幾百人我都會怕如果我話支持侵會惹不必要的麻煩,尤其我是住響西方國家⋯ 所以過份政治正確係的而且確好討厭