Home Artists Posts Import Register

Content


昨天在一個guest lecture,談及這本書,希望重溫一下。

今天「大數據」已成為人們衝口而出的詞彙,龐大數目的私人資料、網上紀錄,以及當中呈現的行為模式和個人取向、隱私,究竟在展示社會規範的偽善,還是人性確有不為人知的真相?《紐約時報》撰稿人大衛德維茲 (Seth Stephens-Davidowitz) 2017年出版了《數據、謊言與真相:Google資料分析師用大數據揭露人們的真面目》一書,指出在網絡獲得的大數據,比我們平日在人前的言談舉止,或在訪問、問卷調查表達的意見,都更能反映最真實的內心世界;然而這樣的真相,卻充滿傳統規範定義的政治不正確,不少甚至有違法、道德問題。面對所有人心底裏的黑暗面無所遁形的年代,國際關係又會面對怎樣的變革?

《數據、謊言與真相》的成書背景,源於作者對Google的親身經歷,因為他本來就是Google的數據分析師。在工作中,他發現當每人每日都使用網上搜尋器,不論是學術資料、新聞、商品、還是揭秘,搜尋行為日積月累,已形成個人行為模式、選擇和偏好的龐大資料庫,而且這是不可逆轉的。通過個人在Google的搜尋關鍵詞、這些詞彙的搜尋次數、頻率和組合,這些資料建構了一個平行時空的世界,隱然透露了「真正」的主流價值觀。然後他進一步研究Facebook、twitter等社交媒體,以及維基百科、約會網站、色情網站等,發現用戶在這些平台留下的痕跡,都有一個共通點:它們與民調或訪問收集的主流意見,往往大相逕庭。

基於以上設定,大衛德維茲認為大數據在未來世界,具有以下四項關鍵力量:

1.  由於大數據是基於網絡使用者無意識、或「以為沒有人知道」的情況下,作出的搜尋行為而提供,反映更誠實、不加掩飾的數據資料,呈現人們生活的真實面貌和狀況,而非人們希望自己展現給別人的「政治正確」、「高大全」完美形象,也和我們平日要堅守的底線無關。

2.  大數據讓分析員只需利用特定程式碼,就能輕易獲取數以十萬、百萬計網絡使用者的資訊,令獲取個人資訊的成本大幅降低,被數據主導未來的可能性則大增。而且大數據更可讓人不只看到整體趨勢,亦可針對特定組群如性別、年齡等,將數據切割分解,對特定群組具體分析,巨細無遺。

3.  大數據能通過電腦運算的力量(機械學習),將龐大數量的數字、文字和圖像資訊加以編程整理,而成為更有意義的資料,再提供其他變項,從而了解本來貌似毫無關聯的事物之間,也許存在更複雜的關係。

4.  大數據基於在網絡蒐集和整理的特性,更容易進行實驗、運算和分析,幫助知道不同數據和變項之間的因果關係,也更容易掌握箇中的相關性,例如「教徒是否特別表裏不一」這類問題,很可能在網絡得到答案。

大數據傳達的「真相」與「謊言」

大衛德維茲在書中開首,就以「特朗普當選和當時民調數據的矛盾」,以及「奧巴馬成為美國總統,是否代表大部份美國人已沒有種族歧視心態」這兩個問題,指出我們從民意調查、常理推斷和個人觀感所得,往往與真實狀況大相逕庭。這反映網絡使用者在匿名狀態下,往往會表露不敢在線下談論的事情,諸如種族歧視、同性性傾向、性事、虐童、仇恨思想等。大數據正將我們原本沒有在人前展現的部份暴露出來,正如替此書寫推薦序的心理學家平克 (Steven Pinker)所言,大數據彷彿成為了「窺探人心的窗口」。

雖然作者強調大數據並非萬能,依然需要透過人類的判斷、後續進行的具體調查,才能發揮作用,否則大數據只會帶來更龐大數量的「事實」,但大勢所趨,相信很快連各種各樣的分析,有了人工智能、機械學習,也能假手於電腦,人類最真實的七情六慾,也就無所遁形。對人類而言,這是好事還是壞事?大衛德維茲認為大數據將令社會科學變為「真實的科學」,為人類帶來更美好的社會,也就是從前共產主義、國家社會主義一類烏托邦的理想,有了真正的數目字管理基礎,要落實再也不是夢,不少創業者也是朝同一個夢想推進。某內地保險公司聲稱已研發出根據大數據、人工智能、面容辨識等,能一秒分析保險申請人有否說謊和投保代價,這樣的未來,已經觸手能及。

然而大數據帶來的顛覆性影響,卻可能令人類未進化至那階段,已面臨其他危機,例如極權政體的濫用和監控,就幾乎是不可避免的事實。不過先不談這一點,我們先還原基本步,究竟網民在網絡留下的痕跡是否就是「真相」、還是不過另一種「後真相」,這本身已是永不能有共識的議題。正如英國哲學學者斯特勞森(Galen Strawson)所言,大量人群聚集在相同網絡社交圈的同溫層圍爐暖,令群體內的信念、偏見只會更強化,從中獲得的大數據到底還有多真實?人性本來就不是一個固化的概念,每刻都在改變,有善有惡,因應不同反應作出回應。假如一個人在網絡被可以誘導釋放某一面向,那只能代表他和網絡這中介的互動,容易令某一傾向展現出來,卻不一定代表這就是他「真實」的一面。

以特朗普的支持者為例,可能他們在現實社會彬彬有禮,對少數族群充滿尊重,而到了網絡世界「原形畢露」,不斷散播仇恨,但後者往往建基於他們的說話不用負責任、也不會成真的基礎而出現。一旦他們說的話會全部變成事實,天下為之大亂,很可能他們又情願回到一切有規範的現實世界。又如人性對不同性觀念、性傾向,本來就有天生的探索精神,又如在現實世界充滿壓抑,在網絡全盤釋放,只是一個挑戰與回應的行為。同性戀、戀母情結、戀物情結一類網站的點擊率頗高,這簡單的代表了很多人掩飾真面目,還是另有其他解讀,就是同一現象的延伸。假如從看人獸交片段的點擊總數,得出人類有多少比例有次癖好,很容易本末倒置。

水能載舟、亦能覆舟,大數據出現後,我們固然進入了「後私隱年代」,但這代表了甚麼,政府、大企業如何研判與回應,是推波助瀾、盲目阻撓還是視而不見,將決定人類未來發展的最後命運。

小詞典:大衛德維茲 (Seth Stephens-Davidowitz)

美國《紐約時報》撰稿人,2013年哈佛大學經濟學博士畢業,曾在Google擔任數據分析師,一直研究大數據對人類未來的影響,也是華盛頓商學院客席講師。2017年出版的《數據、謊言與真相》一書,是他在Google工作過程觀察所得的進一步研究,出版後引起政商學界不少注視。

信報財經新聞

Comments

Ing S

Antitrust law needs urgent updating to limit the negative impacts of the growing clout of tech firms before it's too late. Perhaps it is? FAAG aren't shy to rig the U.S. presidential election

Wendy Lam

Hi Sarah: I believe I agree with you, but am curious about FAAG. Do you mean those four firms including FB and Google? Thx!! :)

Elaine Yip

大數據的分析對未來人的個人私隱、喜好、個性、習慣、生活品味、品格、嗜好、政治立場... 等等必然有深度及深遠影響。因為在網上虛擬世界或搜尋各種不同類別資料的同時也會受商家及政治家從大數據中了解他們的個人資料而耍一些心理手段來進行推銷產品或誤導政治上的取態!當中利用多種心理技巧、謊言、假消息、羊群心理 去誤導和擺弄來達到目的效果!

Joyz

其實大數據反映的是事實或謊言都係要好睇d 數據係點collect, 之後under什麼樣的assumption去transform data, 同點interpret and derive conclusion. 市面上見到用大數據見到的applications 當然全部都已經train 得好好同analyze data 準確先會用. 但data scientists 在背後要花好多時間去clean data 同研究用邊種algorithms去分析或predict data, 如果個data source 唔夠 predictive 或representative, 準確度會大打折扣. 例:用twitter 的text data 去做sentiment analysis 去predict 大市是非常難, 因為股市升跌除了market sentiment 還有很多其他因素, 而tweets 係咪representative同predictive也是疑問. Anyway, 科技公司用社交媒體的個人大數據去determine what content to feed 係真的會influence 人群行為, 因為佢哋最care 嘅係users 的engagement rate , 而人性往往係對黑暗面或conspiracy有興趣. 某程度上我認為同各地示威頻繁都好有關係.

Napoléon

比較相信大數據只係工具,其本身獨立存在並無意義,只有配合國家機器運作先能呈現出來。 無論點樣揭露私隱,總有其他解讀面向。

Wendy Lam

多謝教授提出呢幾點,等大家思考同探討,但有小小想替侵侵支持者including me平反,至少大部份 從來沒有散播仇恨或有種族歧視,而現在美國有嚴出種族問族問題的大多是民主黨執政的洲或County 或City. Thank you!🙏🙏

Good Year

大數據做到野因為你唔知有大數據 當通左天 大數據最多係推介下產品 因為人會進化 你唔知無得講 當 科技越來越普及 D細佬就識得應對 正如zoom 可以睇D學生點上堂好快就識唔開鏡頭了

Good Year

係威係勢咁行幾年 之後就好似上次大選咁 領先果個輸咗