寒假之大數據學習筆記(0)

本人現大二計算機學生,想將自己學的東西,寫成博客,供大家分享,日後也將持續更新。

寒假裏主要整理大數據和java方面的知識。

 

(大數據開發技術)學習路線如下:

環境:Linux操作系統(CentOS)
(1)Hadoop:解決海量數據的分佈式存儲, 分佈式計算
(2)Hbase:大數據的數據庫 列式存儲的數據
(3)Hive:數據倉庫( 數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。)
(4)scala:函數式編程
(5)Spark:準時時計算的一 個框架
(6)SparkSQL:爲Spark提供結構化數據處理
(7)SparkStreaming:流式計算
(8)Flume:數據採集
(9)Kafka:消息隊列
(10)Python:面向對象 爬蟲

storm:是一個免費並開源的分佈式實時計算系統(過時)
flink:以數據並行和流水線方式執行任意流數據程序

其中

(1)、(2)、(3)屬於離線計算,主要用在處理數據量大,但不急於計算的情況

(5)、(6)、(7)、(8)、(8)屬於實時計算,主要用在邊存入邊處理的數據

(4)、(10)是兩種獨立的語言

 

基於hadoop,以上各個技術組成hadoop生態圈

hadoop生態圈

由zookeeper這個技術來管理這個生態圈

zookeeper:管理 協調

(每學習一個新的技術就放入zookeeper裏面)

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章