本人現大二計算機學生,想將自己學的東西,寫成博客,供大家分享,日後也將持續更新。
寒假裏主要整理大數據和java方面的知識。
(大數據開發技術)學習路線如下:
環境:Linux操作系統(CentOS)
(1)Hadoop:解決海量數據的分佈式存儲, 分佈式計算
(2)Hbase:大數據的數據庫 列式存儲的數據
(3)Hive:數據倉庫( 數據庫一般存儲在線交易數據,數據倉庫存儲的一般是歷史數據。)
(4)scala:函數式編程
(5)Spark:準時時計算的一 個框架
(6)SparkSQL:爲Spark提供結構化數據處理
(7)SparkStreaming:流式計算
(8)Flume:數據採集
(9)Kafka:消息隊列
(10)Python:面向對象 爬蟲
storm:是一個免費並開源的分佈式實時計算系統(過時)
flink:以數據並行和流水線方式執行任意流數據程序
其中
(1)、(2)、(3)屬於離線計算,主要用在處理數據量大,但不急於計算的情況
(5)、(6)、(7)、(8)、(8)屬於實時計算,主要用在邊存入邊處理的數據
(4)、(10)是兩種獨立的語言
基於hadoop,以上各個技術組成hadoop生態圈
由zookeeper這個技術來管理這個生態圈
zookeeper:管理 協調
(每學習一個新的技術就放入zookeeper裏面)