什麼是大數據?

大數據體現在三個方面:
容積大:數據容積達到TB,甚至PB級。傳統數據庫難以處理。
速度快:數據流入系統的速度很快(比如網購用戶的點擊流)需要及時響應和處理。這使得數據的暫時緩存再處理都變得不可能。
多樣性:數據的來源和格式變化多端,可以是結構化數據(如關係數據庫中的數據,csv數據),半結構化數據(XML,JSON),甚至是非結構化數據(如電子郵件,WORD文檔和一般文本),數據也可能是文本數據,音頻數據,視頻數據,圖像數據等等。

應對大容積問題,有2種技術:1是採用MPP(massive parallel processing)架構,FPGA(Field programmable gate array)技術的數據庫或數據倉庫,比如netezza數據倉庫一體機,Teradata一體機. 2是基於apache-hadoop或類hadoop的分佈式文件系統和分佈式計算架構。前者需要數據有定義好的schema適合於處理大容量的結構化數據,後者無需事先定義好的schema適合處理變化的數據;前者還有一個優勢是適合交互式,響應性強的任務,二後者適合批處理任務和分析處理任務。

快速流動的數據一般稱爲流數據或者CEP(complex event processing)。這種流數據不適合用hadoop處理。處理流數據的產品主要有2類:IBM專有產品InfoSphere Streams,和開源框架twitter的storm和yahoo的S4。
數據流速快和沒有固定schema催生了noSQL數據庫的發展:以鍵值對存儲,面向列,無需固定的結構。

數據多樣性使得一味地將關係數據庫作爲存儲目的地變得不明智。一定的數據類型可能更適合特定的數據庫,比如XML數據更適合存儲在像MarkLogic這樣的存儲庫,社交網絡關係本質是圖,更應存儲在像Neo4j這樣的圖形數據庫中。

大數據考慮點:
1.大數據很大,移動數據很難,因此要考慮把程序向數據處移動而不是把數據向程序所在的計算節點移。
2.大數據很亂,清洗和整理數據往往佔了數據處理的80%的工作量。

3.大數據團隊,建立數據科學家和數據分析師崗位。


參考資料:

1.騰訊大規模hadoop集羣實踐。http://www.csdn.net/article/2014-02-19/2818473-Tencent-Hadoop


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章