網頁

搜尋此網誌

2013年6月12日 星期三

Big Data 大數據

Big Data稱為巨量資料大數據,這大概是雲端運算之後最為流行的科技議題,然而沒多少人知道什麼是巨量資料。現在,這本「大數據」清楚解釋什麼是巨量資料,以及巨量資料對人類造成的革命性改變(如同雲端運算對商業模式的影響),這本書的內容在技術方面著墨不深,主要是說明巨量資料的觀念與影響,非常適合任何對於巨量資料有興趣的人閱讀,可說是巨量資料的入門書(科普書)。

麥爾荀伯格、庫基耶著,林俊宏譯,大數據,台北:天下遠見,2013。
譯自: Big data: a revolution that will transform how we live, work, and think

「大數據」整本書是一個金字塔架構,全書共10章,從現在談到未來,如果你真的沒有時間,只看第一章也能對巨量資料有基本的認識,這本書建議各位依序閱讀完全,感覺就像上了兩位大數據專家的一堂課。

巨量資料目前還沒有明確定義,不妨參考 Gartner 公司的研究副總裁蘭尼 (Doug Laney) 提出的「三個V」性質(參閱第一章參考資料),即資料量 (volume) 、速度 (velocity) 、種類 (variety) ,這樣對於「巨量」會比較有感覺。這本書沒有確切說明何謂巨量資料,主要是強調巨量資料帶來的改變,主要改變有三點:
  1. 能夠取得、分析的資料量大為增加
  2. 不會堅持一切都要做到精確
  3. 放下長久以來對於因果關係的堅持
之所以有這些改變在於現在是從「小量資料」轉變到「巨量資料」的時刻,由於科技的進步,分析處理巨量資料已經不再困難,然而過去小量資料 (small data) 的時代發產出來概念已不適用於未來。

第一個改變來自於資料取得不是隨機抽樣的方式。過去,因為處理資料能力有限,不得不對真實世界以隨機抽樣取得小量資料,現在,已有能力處理巨量資料,資料的取得盡可能是真實世界的全部且完整的資訊,或者說:全部都是樣本。

第二個改變基於第一個。由於資料是全部的測量點(取樣點),因而產生三個結果:發生錯誤的可能性相對提高、取得不同來源與類型的資料、各資料格式也會不盡一致,這些都是雜亂 (messy) 。雜亂是巨量資料的特性,資料的「精確」已經不是重點,關注的反而是「可能性」這個目標,由於有了全部的資料,我們在乎的是整體輪廓的價值。對於巨量資料而言,資料的數量比品質更為重要。

第三個改變是最重要的變革。基於我們已經擁有完整的資料,分析某個現象的因果關係其實已經不太重要,不太需要知道「為何如此」,我們只需要了解現象之間彼此的相關性 (correlation) ,觀念必須改為知道「正是如此」就夠了,這個概念讓我們得到更多新的「因果關係」,將足以改變我們看待一切的方式。

上述這三個改變將影響我們的生活與工作,並建立全新的思考方式,若想更進一步瞭解巨量資料,這本「大數據」絕對值得好好閱讀。

###

沒有留言:

張貼留言

熱門文章