首先,我們來介紹一下什麼是Hadoop。
Hadoop最核心的部件有兩個,一爲HDFS,所謂的HDFS,就是分佈式的文件存儲系統。
二爲Mapreduce,即爲分佈式的計算系統(分佈式離線的計算框架)。
上述的兩個部件,解決了大數據的存儲問題,還有解決了大數據的計算問題。
剩下的基本上都是這兩個所衍生出來的工具。
Maperduce的編程語言:
1、Jave(最原始的方式)
2、Hadoop Streaming(支持多語言)
3、Hadoop Pipes(支持C和C++)
Mahout提供的算法:分類、聚類、頻繁模式挖掘、向量相似度計算、推薦引擎、降維、進化算法、迴歸分析等
Hive:是構建在Hadoop之上的數據倉庫,用於解決海量結構化的日誌數據的統計問題,其語言結構HQL,類似於SQL,但又不完全相同。
Pig:基於Hadoop的數據流執行引擎,利用MapReduce並行處理數據,使用Pig Latin語言表達數據流
Hive:即就是Hive2(Stinger),底層的算法引擎由Tez(DGA計算框架)替換MapReduce
Impala:可直接處理存儲在HDFS上的數據,並在次寫入數據到HDFS,具有良好的擴展性和容錯性,適合快速交互式查詢。
Oozie: