《大數據》第一章閱讀摘錄，拋下對因果關係的執著，擁抱相關性。

《大數據》，Viktor Mayer-Schönberger，2013，天下文化，林俊宏譯

最近在金融科技學程修一堂大數據分析導論課程，正在閱讀Viktor Mayer-Schönberger的《大數據》，以下為第一章背景介紹所讀到的重點。

第一章“該讓大數據說話了”，這代表以後不再是官大學問大，老闆說了算的時代了，而是巨量資料、大數據說話的時代了。

1.第一節提到了幾家一開始運用大數據的公司，例如google，每天擁有三十億筆的搜尋資料，丙且具備專業的處理能力以及統計技術，google可以透過字眼的搜尋頻率、找出和流感傳播的時間、地區有沒有統計上的“相關性”(correlation)，而最後他們的軟體找出45個有“強烈相關性”的字眼，可以即時掌握流感的疫情，幾乎“即時”。

‭2.google‬的例子就是使用“全新的方式來運用資訊”，巨量資料功能強大，可以讓許多領域改頭換面。

3.本書再舉了Oren Etzioni先生的例子，他做出的Farecast，整理分析航班預訂資料庫，夠預測未來機票價格漲跌的模型。這個模型“不知道為何如此，只知道正是如此”。Oren Etzioni的這套方法，適合用在任何“產品差異小，價格變化大且有大量數據資料的商品”。（老師在課堂上討論到了，可以用大數據預測股價嗎？老師認為沒有固定模型的事情，是比較難的。）

4.科技進步是Oren Etzioni成功關鍵之一，但是最重要的是“如何使用資料的思維已經有所改變”。
5.資料是“新的商業生產原料，並且能重複利用。“

6.資訊常常是看不到的，但是規模的改變，已經開始導致了狀態的改變，也就是量變引發質變，當資料量很大的時候，很多事的本質就改變了。

7.最早對於巨量資料的概念便是資訊量已經過於龐大，無法處理了，所以工程師必須發展新的工具（軟體）來分析。

8.幾個巨量資料的工具：Google的MapReduce、Yahoo的Hadoop讓使用者能管理更大量的資料，而且不需要先整理成整齊的行列或資料表(NoSQL)。（NoSQL 這個詞指的是高效能的非關聯式資料庫）

9.巨量資料指的是資料量達一定規模才能做的事。

10.新的觀點：我們必須拋下對因果關係的執著，而是擁抱簡單的相關性。

11.全球資料量的快速增長，在天文學、基因密碼、金融、網路公司等都有快速的成長，南加大的Martin Hilbert教授計算，資料量三年便會加倍。

12.巨量資料的重點在於“放大”，只要擴大資料量的等級，就能做出少量資料做不到的事，我們常常對許多限制習以為常，但那只是因為工具還沒發展出來。

13.巨量資料的重點在於“預測”，我們常將巨量資料說成人工智慧、機器學習的一部份，這會造成誤導，巨量資料不是要讓電腦思考，而是要計算大量的資料、計算機率，例如郵件是垃圾郵件的機率等等。

14.未來許多透過腦袋判斷的事物會被電腦取代，“網路”讓電腦有了溝通的功能，而“巨量資料”也將為人類生活帶來前所未有的量化面向。

15.巨量資料帶來新的經濟價值與創新以外，也使分析資訊的方式產生三大改變
一、能夠取得與分析的資料量大量增加，以前的抽樣方法，常常是因為資料量的不足，而新科技，就有機會把全部相關資料放進來處理。
二、如果我們面對巨量資料，就不會要求一切都要精準。
三、放下長期以來對因果關係的堅持，因果關係常常難以判斷或有誤解，但巨量資料思維，更重視彼此的“相關性”。

16.統計和巨量資料的不同，統計是提出假設、再驗證之，但我們根據什麼做假設？驗證會成功嗎？這些都是問題，而巨量資料則是“直接讓資料說話”。

17.資料化（datafication），資料化是把天地下的所有資訊，都轉成可以量化的資料格式，而資訊能夠用來做預測分析，“引發出潛在資訊中的價值”。舉例來說，用引擎的振動與發熱來預測其故障。

18.資料成為重要的企業資產、必要的經濟資源投入以及新商業模式的基礎，可以說是新經濟時代的石油。

19.資料處理技術已經存在許久，但多掌握在間諜組織、科學實驗室或企業龍頭，例如最早使用在零售與金融的是Walmart和Capital One，到了現在，工具可能已經人人可得，但資料本身掌握在少數人手中。

20.巨量資料的黑暗面：
1.克能被用於侵犯隱私？
2.當我們預測各種事情的可能性，面臨到了資料獨裁與自由意志的抉擇，舉例來說，如果可以預測犯罪，要先把他抓起來嗎？如果可以預測到自己有心臟病，先跑去買保險等等？
在巨量資料，會需要新的準則

第一章應該是對這整本書內容的介紹，讀完第一章，對於大數據有一點基礎的認識，也知道這本書所要探討的議題。而我覺得令我最印象深刻的一句話便是。“們必須拋下對因果關係的執著，而是擁抱簡單的相關性”。

《大數據》第一章閱讀摘錄，拋下對因果關係的執著，擁抱相關性。

>>將內容用自己的手機、平版分享到.....

標籤：Fintech 大數據好學不倦統計學讀書心得高度學習意願