麥爾荀伯格、庫基耶著,林俊宏譯,大數據,台北:天下遠見,2013。
譯自: Big data: a revolution that will transform how we live, work, and think
「大數據」整本書是一個金字塔架構,全書共10章,從現在談到未來,如果你真的沒有時間,只看第一章也能對巨量資料有基本的認識,這本書建議各位依序閱讀完全,感覺就像上了兩位大數據專家的一堂課。
巨量資料目前還沒有明確定義,不妨參考 Gartner 公司的研究副總裁蘭尼 (Doug Laney) 提出的「三個V」性質(參閱第一章參考資料),即資料量 (volume) 、速度 (velocity) 、種類 (variety) ,這樣對於「巨量」會比較有感覺。這本書沒有確切說明何謂巨量資料,主要是強調巨量資料帶來的改變,主要改變有三點:
- 能夠取得、分析的資料量大為增加
- 不會堅持一切都要做到精確
- 放下長久以來對於因果關係的堅持
第一個改變來自於資料取得不是隨機抽樣的方式。過去,因為處理資料能力有限,不得不對真實世界以隨機抽樣取得小量資料,現在,已有能力處理巨量資料,資料的取得盡可能是真實世界的全部且完整的資訊,或者說:全部都是樣本。
第二個改變基於第一個。由於資料是全部的測量點(取樣點),因而產生三個結果:發生錯誤的可能性相對提高、取得不同來源與類型的資料、各資料格式也會不盡一致,這些都是雜亂 (messy) 。雜亂是巨量資料的特性,資料的「精確」已經不是重點,關注的反而是「可能性」這個目標,由於有了全部的資料,我們在乎的是整體輪廓的價值。對於巨量資料而言,資料的數量比品質更為重要。
第三個改變是最重要的變革。基於我們已經擁有完整的資料,分析某個現象的因果關係其實已經不太重要,不太需要知道「為何如此」,我們只需要了解現象之間彼此的相關性 (correlation) ,觀念必須改為知道「正是如此」就夠了,這個概念讓我們得到更多新的「因果關係」,將足以改變我們看待一切的方式。
上述這三個改變將影響我們的生活與工作,並建立全新的思考方式,若想更進一步瞭解巨量資料,這本「大數據」絕對值得好好閱讀。
###
沒有留言:
張貼留言