大數據——Hadoop生態系統

首先,我們來介紹一下什麼是Hadoop。

 

 

Hadoop最核心的部件有兩個,一爲HDFS,所謂的HDFS,就是分佈式的文件存儲系統。

二爲Mapreduce,即爲分佈式的計算系統(分佈式離線的計算框架)。

上述的兩個部件,解決了大數據的存儲問題,還有解決了大數據的計算問題。

剩下的基本上都是這兩個所衍生出來的工具。

Maperduce的編程語言:

1、Jave(最原始的方式)

2、Hadoop Streaming(支持多語言)

3、Hadoop Pipes(支持C和C++)

Mahout提供的算法:分類、聚類、頻繁模式挖掘、向量相似度計算、推薦引擎、降維、進化算法、迴歸分析等

Hive:是構建在Hadoop之上的數據倉庫,用於解決海量結構化的日誌數據的統計問題,其語言結構HQL,類似於SQL,但又不完全相同。

Pig:基於Hadoop的數據流執行引擎,利用MapReduce並行處理數據,使用Pig Latin語言表達數據流

Hive:即就是Hive2(Stinger),底層的算法引擎由Tez(DGA計算框架)替換MapReduce

Impala:可直接處理存儲在HDFS上的數據,並在次寫入數據到HDFS,具有良好的擴展性和容錯性,適合快速交互式查詢。

Oozie:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章