大數據第四章
《大數據》,Viktor Mayer-Schönberger,2013,天下文化,林俊宏譯
相關性–>不再拘泥於因果關係
亞馬遜解散書評團隊
1.亞馬遜早期有編輯跟書評提出建議閱讀的書目。
2.執行長Bezos貝佐斯想到,依據客戶個人的喜好來建議書籍。
3.一開始採用傳統的樣本分析找出相似性,這樣的結果很粗糙。
4.華盛頓博士林登想到一個方法,比較產品之間的關連就可以了,研發出『品項對品項』協同篩選技術,讓推薦系統改頭換面。
5.產品之間的分析可以是先處理,所以可以在瞬間提出建議,這種方法可以應用在各種產品類別,比過去也精確的多。
6.由資料自動產生的內容屌打人工寫出的內容。
7.目前亞馬遜的總銷量有1/3是來自電腦推薦和客製化系統。
8.林登的研究改變了電子商務,幾乎所有人都採用這種新作法。
9.為何如此不是那麼重要了,只要知道正是如此便是。
10.以前的銷售都在找客戶做決定背後的原因,而巨量資料告訴我們,更務實的方法是找出可創造價值的相關性,不用知道原因也沒差,知道正是如此就好。
抓住相關性就抓住機會
11.相關性的核心概念在於兩個資料直之間的統計關係加以量化。兩者相關性強則代表一個值的改變極可能帶動另外一個值跟著改變。
12.運用相關性讓我們在分析現象時,不用找到運作道理,而是只要找到有用的指標即可。
13.舉裡來說我們發現A和B常常同時發生,我們可以把B當指標,預測A。
14.相關性並不是真的能預測未來,只能說有一定可能性,但已經價值非凡。
15.Walmart有的資料量是全美企業之首,透過零售鏈系統記錄所有產品資料。
16.能夠及時看到銷售率,銷售量以及存貨,將庫存問題回丟給供應商,成為世界上最大的寄賣店業者。
藉助電腦進行相關分析
17.過去的資料用新方法分析,Teradata天睿與Walmart合作,透過龐大歷史交易記錄,找出相關性,EX尿布啤酒,颶風pop-tarts。
18.過去需要靈光一現的行銷,現透過資料工具找出相關性即可。
19.巨量資料出現前相關分析已經十分重要,高騰爵士發現身高和前臂長度有關。
20.統計人員常常是 1.找出指標 2.蒐集與指標相關資料 3.跑相關分析 4.看效果如何,但能當指標的到底是誰?
21.巨量資料時代用假說來挑選該檢驗哪先變數已經沒有效率了。
22.有強大的運算能力,現在要理解世界不再需要先對某個現象提出假說,只要將巨量資料交付相關分析就好。
TARGET預測誰家女兒懷孕
23.巨量資料的核心概念以相關性作為預測的根據。
24.舉例來說,費埃哲以財務信用分數來預測個人行為。
25.舉例來說,費埃哲以各種看似無關變項來預測個人會不會吃藥,『遵囑服藥分數』。
26.沒什麼因果關係,純粹是相關性而已。
27.以資料為業的人也加入這個相關性賽局,益百利Experian的洞察收入,可以用信用記錄為基礎推測收入分數。愛貴發Equifax也有付款能力指數與可支配收入指數。
28.也影響保險業,在審查保戶資料時,信用記錄與消費行為取代檢體驗尿找出患有高血壓等的高風險保戶。
29.Deloitte德勤的英傑華預測模型,預測健康風險。
30.預測模型看似和生病無關,判定生活方式不健康,得繳比較高的保費。
31.TARGET也用巨量資料作相關性預測,在某位婦女沒講的情況下,已經知道他懷孕了。
32.透過填寫的新生兒禮物清單以及購物記錄,算出懷孕預測分數,寄出優惠卷。
提早發出故障或生病預警
33.尋找指標只是一種應用,預測分析也常被商業領域使用,如暢銷歌預測。
34.UPS物流從2000年代開始使用預測分析,預測何時該進行預防性維修,省下費用。
35.橋樑上的感應器也是一個例子,先投入資金蒐集分析資料,就能防範未然。
36.預測分析可能無法解原因,只能顯示確實有問題。
37.醫療保健體系會產生龐大的資料流,可能有重要訊息,舉例來說IBM和安大略大學合作,研發出軟體幫助醫生改善對早產兒的診斷。
38.靠著系統可以發現早產兒身上微小的變化,對症下藥,系統本身不會做出決定,但合作的方式讓機器與人個做擅長的事。
39.巨量資料發現,有些相關性與過去醫生的傳統觀念完全相反,舉例來說,早產兒爆發感染前,會有一段時間非常穩定。
消除公共政策盲點
40.過去處理巨量資料時,可能運算能力不足,只能找出線性關連,但現實生活中很多關係是非線性關係。
41.舉例來說,幸福與收入,就是一條曲線,所以施政重點就該試題生窮人收入。
42.相關性屬於多面向,局面就會更加複雜,舉例來說,接種麻疹疫苗的意願與願意花在健康保險的金額,並非簡單線性,願花的錢高到一程度,接種意願反而下降。
43.統計學早已告訴我們,有相關性不等於因果關係。
想知道因果,必須做實驗
44.因果並沒有簡單的數學方程式能計算,相關性簡單多了。
45.舉例來說,狂犬病存活是因為打了疫苗嗎?我們不知道,可能不是。
46.要知道因果就要靠實驗,卻常常遇到可行性與倫理的問題,並且昂貴費時。
47.相關性這種非因果的分析,就顯得快速又便宜。
人與人孔蓋的例子
48.紐約常發生人孔蓋悶燒爆炸的意外。
49.所以決定用整個館路的歷史資料(過去問題與分布),來預測那個比較可能出問題。
50.是個巨量資料問題,哥倫比亞大學的主持人Cynthia Rudin是統計與資料挖掘專家,因為情況如定時炸彈,他決定以全部資料來分析,『樣本=母體』,找出其相關性。
51.從106格指標手他找出人孔蓋事故最重要的指標,年份以及是否曾經發生過事故。
巨量資料是關於三種思維的改變
a.針對特定主題分析龐大資料整體,而不是分析較小的資料。
b.接受資料會雜亂不清的事實,不是追求精確。
c.更看重相關性而不是追求因果關係。