大數據第四章

《大數據》,Viktor Mayer-Schönberger,2013,天下文化,林俊宏譯

 

相關性–>不再拘泥於因果關係

亞馬遜解散書評團隊

1.亞馬遜早期有編輯跟書評提出建議閱讀的書目。

2.執行長Bezos貝佐斯想到,依據客戶個人的喜好來建議書籍。

3.一開始採用傳統的樣本分析找出相似性,這樣的結果很粗糙。

4.華盛頓博士林登想到一個方法,比較產品之間的關連就可以了,研發出『品項對品項』協同篩選技術,讓推薦系統改頭換面。

5.產品之間的分析可以是先處理,所以可以在瞬間提出建議,這種方法可以應用在各種產品類別,比過去也精確的多。

6.由資料自動產生的內容屌打人工寫出的內容。

7.目前亞馬遜的總銷量有1/3是來自電腦推薦和客製化系統。

8.林登的研究改變了電子商務,幾乎所有人都採用這種新作法。

9.為何如此不是那麼重要了,只要知道正是如此便是。

10.以前的銷售都在找客戶做決定背後的原因,而巨量資料告訴我們,更務實的方法是找出可創造價值的相關性,不用知道原因也沒差,知道正是如此就好。

 

抓住相關性就抓住機會

11.相關性的核心概念在於兩個資料直之間的統計關係加以量化。兩者相關性強則代表一個值的改變極可能帶動另外一個值跟著改變。

12.運用相關性讓我們在分析現象時,不用找到運作道理,而是只要找到有用的指標即可。

13.舉裡來說我們發現A和B常常同時發生,我們可以把B當指標,預測A。

14.相關性並不是真的能預測未來,只能說有一定可能性,但已經價值非凡。

15.Walmart有的資料量是全美企業之首,透過零售鏈系統記錄所有產品資料。

16.能夠及時看到銷售率,銷售量以及存貨,將庫存問題回丟給供應商,成為世界上最大的寄賣店業者。

 

藉助電腦進行相關分析

17.過去的資料用新方法分析,Teradata天睿與Walmart合作,透過龐大歷史交易記錄,找出相關性,EX尿布啤酒,颶風pop-tarts。

18.過去需要靈光一現的行銷,現透過資料工具找出相關性即可。

19.巨量資料出現前相關分析已經十分重要,高騰爵士發現身高和前臂長度有關。

20.統計人員常常是 1.找出指標 2.蒐集與指標相關資料 3.跑相關分析 4.看效果如何,但能當指標的到底是誰?

21.巨量資料時代用假說來挑選該檢驗哪先變數已經沒有效率了。

22.有強大的運算能力,現在要理解世界不再需要先對某個現象提出假說,只要將巨量資料交付相關分析就好。

 

TARGET預測誰家女兒懷孕

23.巨量資料的核心概念以相關性作為預測的根據

24.舉例來說,費埃哲以財務信用分數來預測個人行為。

25.舉例來說,費埃哲以各種看似無關變項來預測個人會不會吃藥,『遵囑服藥分數』。

26.沒什麼因果關係,純粹是相關性而已。

27.以資料為業的人也加入這個相關性賽局,益百利Experian的洞察收入,可以用信用記錄為基礎推測收入分數。愛貴發Equifax也有付款能力指數可支配收入指數

28.也影響保險業,在審查保戶資料時,信用記錄與消費行為取代檢體驗尿找出患有高血壓等的高風險保戶。

29.Deloitte德勤的英傑華預測模型,預測健康風險

30.預測模型看似和生病無關,判定生活方式不健康,得繳比較高的保費。

31.TARGET也用巨量資料作相關性預測,在某位婦女沒講的情況下,已經知道他懷孕了。

32.透過填寫的新生兒禮物清單以及購物記錄,算出懷孕預測分數,寄出優惠卷。

 

提早發出故障或生病預警

33.尋找指標只是一種應用,預測分析也常被商業領域使用,如暢銷歌預測。

34.UPS物流從2000年代開始使用預測分析,預測何時該進行預防性維修,省下費用。

35.橋樑上的感應器也是一個例子,先投入資金蒐集分析資料,就能防範未然。

36.預測分析可能無法解原因,只能顯示確實有問題

37.醫療保健體系會產生龐大的資料流,可能有重要訊息,舉例來說IBM和安大略大學合作,研發出軟體幫助醫生改善對早產兒的診斷。

38.靠著系統可以發現早產兒身上微小的變化,對症下藥,系統本身不會做出決定,但合作的方式讓機器與人個做擅長的事

39.巨量資料發現,有些相關性與過去醫生的傳統觀念完全相反,舉例來說,早產兒爆發感染前,會有一段時間非常穩定。

 

消除公共政策盲點

40.過去處理巨量資料時,可能運算能力不足,只能找出線性關連,但現實生活中很多關係是非線性關係

41.舉例來說,幸福與收入,就是一條曲線,所以施政重點就該試題生窮人收入。

42.相關性屬於多面向,局面就會更加複雜,舉例來說,接種麻疹疫苗的意願與願意花在健康保險的金額,並非簡單線性,願花的錢高到一程度,接種意願反而下降。

43.統計學早已告訴我們,有相關性不等於因果關係

 

想知道因果,必須做實驗

44.因果並沒有簡單的數學方程式能計算,相關性簡單多了。

45.舉例來說,狂犬病存活是因為打了疫苗嗎?我們不知道,可能不是。

46.要知道因果就要靠實驗,卻常常遇到可行性倫理的問題,並且昂貴費時

47.相關性這種非因果的分析,就顯得快速又便宜。

 

人與人孔蓋的例子

48.紐約常發生人孔蓋悶燒爆炸的意外。

49.所以決定用整個館路的歷史資料(過去問題與分布),來預測那個比較可能出問題。

50.是個巨量資料問題,哥倫比亞大學的主持人Cynthia Rudin是統計與資料挖掘專家,因為情況如定時炸彈,他決定以全部資料來分析,『樣本=母體』,找出其相關性。

51.從106格指標手他找出人孔蓋事故最重要的指標,年份以及是否曾經發生過事故

 

巨量資料是關於三種思維的改變

        a.針對特定主題分析龐大資料整體,而不是分析較小的資料。

        b.接受資料會雜亂不清的事實,不是追求精確。

        c.更看重相關性而不是追求因果關係。

《大數據》第四章閱讀摘錄,不知道為何如此,只知道正是如此。
>>將內容用自己的手機、平版分享到.....
標籤: