《大數據》,Viktor Mayer-Schönberger,2013,天下文化,林俊宏譯

 

大數據第二章

 

更多資料「樣本=母體」的時代來臨

1.巨量資料是關於三種思維的改變

a.針對特定主題分析龐大資料整體,而不是分析較小的資料。

b.接受資料會雜亂不清的事實,不是追求精確。

c.更看重相關性而不是追求因果關係。

 

難以收集全部資料,統計學因應而生

3.在以前,蒐集、組織、儲存與分析資料的工作受限,大多只能蒐集一小部分

4.我們一直以為是現實,但其實是當時科技能力所造成的人為限制

5.到今天,雖然我們能管理的資料數量還是有一定限制,但限制已經大為減少

6.以前自我限制只有小量資料,就發展了精巧的技術如統計學,希望從最少資料找出最豐富結果

7.過去個人、民間企業無法大規模搜集整理資料,只有比較有力的機構如國家

8.過去大規模的計數如人口普查,昂貴又費時,而且只得到大概的資訊

9.三百年以前,英國的John Graunt想知道倫敦大瘟疫時的人口數,發明出一種不用一個一個數人頭的方法,也就是統計學

10.這開創了一種概念,小樣本推估總人口(母體)的實用資訊

11.稅收和國會席次與人口數息息相關,所以普查需要正確、即時

12.美國人口普查局找來Herman Hollerith打孔卡片做普查,將時間十年縮短為兩年,也代表自動資料處理的時代來臨(為後來IBM的基礎)。但大量資料的收集與分析非常昂貴

13.到底要蒐集全部資料還是一點就好成為考慮問題,在當時限制下,以打造一個能夠代表母體的樣本為目標

14.波蘭統計學家Jerzy Neyman提出證明,若想要避免誤差,關鍵在於隨機選取抽樣的對象

15.要提高抽樣的準確度,最好的方式並非增加樣本數,而是做到隨機抽樣

 

隨機抽樣功績卓著,卻也暗藏缺失

17.隨機比樣本數重要,帶出了新的資訊搜集方式,隨機抽樣能降低成本,又能推論母體。

18.抽樣快速被普及使用,如品管、行銷、民調。

19.但隨機抽樣本身也有一些缺點

a.精確度取決於是否隨機,但要做到隨機非常困難,如果蒐集資料的方式         有系統性的偏差,就會差很多,舉例來說,電話市調,就歧視了手機族、        年輕人

b.抽樣後的尺度難以調整,想把結果進一步分群、觀看個別結果,預測錯 誤的機率就會大增

c.如果沒有一開始就想清楚問題,抽樣調查後難以再從中找出新問體的解 答

e.因為蒐集的只是樣本,所以只能完成最初蒐集的目的,無法用全新的觀 點加以分析

以DNA分析為例,一間矽谷公司可以分析DNA,找出人體基因密碼中的特徵,但問題是,該公司只會針對已知關於特定基因缺陷的標記部分進行基因定序,只是基因密碼中的一小部分,還有幾十一個鹼基對未定序,如果發現新的標記,又必須重新進行定序。這樣只看整體資料的一小部分,可能成本低,但遇到之前沒考慮的問題,就無法了。Steve Jobs抗癌時採用完整的定序,付出六位數以上代價,得到完整的基因密碼, 一般醫生投藥時不知道病患與臨床實驗者DNA是否相似,但賈伯斯的團隊可以依照基因組成投藥與療法。

 

「樣本=母體」的時代來臨

21.到了現在,抽樣可以說是過往的遺跡了。

22.資料處理的工具已經大幅改進,但處理的方法及心態卻還沒跟上。

23.我們都知道抽樣必須付出代價卻又視而不見,抽樣就看不到細節。

24.許多領域已經放棄抽樣,轉而蒐集更多資料,甚至是完整資料,樣本=母體。

25.Google Flu Trends就是用數十億網路搜尋字眼,非抽樣、更精準。

26.Farecast採用幾乎所有航班的紀錄。

27.資料量大,連結隱沒其中,我們要用所有資料才能看出奧妙,如信用卡詐騙的異常紀錄,要找出異常,就需大量的正常資料做比較。

28.如果只是抽樣檢查,不是完整檢查所有資料,就不可能發現異常之處。

29.讓資料成為巨量資料不在於絕對數量與大小。而是在於是否使用隨機抽樣,用盡完整資料,就不是隨機抽樣。

 

逮到相撲選手作假

31.樣本=母體並不一定就是龐大的資料,如日本發現相撲比賽作假。

32.Stven Levitt調查過去十年所有紀錄,十一年六萬多場,發現作假發生在季末不被注意的場次,因為選手要贏過半才能保住階級。

 

「巨量」指的是完整的資料集

34.整個相撲案例的檔案還沒一張數位相片大,巨量不是絕對,而是相對的概念,指的是要有完整的資料集

35.「樣本=母體」這種概念影響最大的領域之一就是社會科學。

36.過去一直依賴抽樣與調查,現在則指只是從旁被動蒐集資料,也能避免抽樣和問卷調查的誤差。

37.巴拉巴西的團隊,透過百萬人通話紀錄,透過巨量資料研究發現,如果把一個在社群中連結眾多的人移除,雖然剩下的社群網路不會再那麼緊密,但不至於整個崩潰,但如果移除的是與社群外有聯結的人,社群網路則會完全崩潰。

38.我們可能誤以為,統計抽樣就是某種永恆不變的原理,但其實只是一個技術限制下而延伸出來的解決辦法,這些限制漸漸獲得解決,我們將有處理全部資料的能力。

《大數據》第二章閱讀摘錄,「樣本=母體」的時代來臨
>>將內容用自己的手機、平版分享到.....
標籤: