來源於百度百科
Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。同常是指一個更廣泛的概念-Hadoop生態圈。
HDFS
分佈式文件系統YARN
YARN(Yet Another Resource Negotiator),job調度和資源管理框架MapReducer
分佈式數據處理模型和執行環境(分佈式計算)ETL
ETL是將業務系統的數據經過抽取(Extract)、清洗轉換(Transform)之後加載(Load)到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,爲企業的決策提供分析依據。Sqoop
一款開源工具,主要用在Hadoop、Hive與傳統數據庫(Mysql)間進行數據傳遞,可以將關係型數據庫數據導入到Hadoop的HDFS中,也可以從HDFS中導入關係型數據庫中;
Flume
一個高可用、高可靠的分佈式海量日誌採集、聚合和傳輸系統,支持在日誌系統中定製各類數據發送方,用於收集數據;Logstash
Kafka
一種高吞吐量的分佈式發佈訂閱消息系統;HBase
一個建立在HDFS之上,面向列的針對性結構化數據的可伸縮、高可靠、高性能、分佈式的動態數據庫,保存的數據可以使用Mapreducer來處理,將數據存儲和並行計算完美的結合在一起;Storm
對數據流做連續查詢,在計算時就將結果以流動形式輸出給用戶,用於“連續計算”;Spark
一種基於內存的分佈式計算框架,與Mapreducer不同的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法,內部提供了大量的庫,如 Spark Sql、Spark Streaming等;Fiilnk
一種基於內存的分佈式計算框架,用於實時計算場景較多;Oozie
一個管理hadoop job 的工作流程調動管理系統,用於協調多個MapReducer任務的執行;Hive
基於Hadoop的一個數據倉庫工具,定義了一種類似SQL的查詢語言(HQL),將SQL轉化爲MapReduce任務在Hadoop上執行。通常用於離線分析。Impala
用於處理存儲在Hadoop集羣中大量數據的MPP(大規模並行處理)SQL查詢引擎,與Hive不同,不基於MapReducer算法。它實現了一個基於守護進程的分佈式結構,負責在同一臺機器上運行的查詢執行所有方面,執行效率高於Hive。