Hadoop 生態

來源於百度百科
Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。同常是指一個更廣泛的概念-Hadoop生態圈。

  • HDFS
    分佈式文件系統

  • YARN
    YARN(Yet Another Resource Negotiator),job調度和資源管理框架

  • MapReducer
    分佈式數據處理模型和執行環境(分佈式計算)

  • ETL
    ETL是將業務系統的數據經過抽取(Extract)、清洗轉換(Transform)之後加載(Load)到數據倉庫的過程,目的是將企業中的分散、零亂、標準不統一的數據整合到一起,爲企業的決策提供分析依據。

  • Sqoop
    一款開源工具,主要用在Hadoop、Hive與傳統數據庫(Mysql)間進行數據傳遞,可以將關係型數據庫數據導入到Hadoop的HDFS中,也可以從HDFS中導入關係型數據庫中;

  • Flume
    一個高可用、高可靠的分佈式海量日誌採集、聚合和傳輸系統,支持在日誌系統中定製各類數據發送方,用於收集數據;

  • Logstash

  • Kafka
    一種高吞吐量的分佈式發佈訂閱消息系統;

  • HBase
    一個建立在HDFS之上,面向列的針對性結構化數據的可伸縮、高可靠、高性能、分佈式的動態數據庫,保存的數據可以使用Mapreducer來處理,將數據存儲和並行計算完美的結合在一起;

  • Storm
    對數據流做連續查詢,在計算時就將結果以流動形式輸出給用戶,用於“連續計算”;

  • Spark
    一種基於內存的分佈式計算框架,與Mapreducer不同的是Job中間輸出結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法,內部提供了大量的庫,如 Spark Sql、Spark Streaming等;

  • Fiilnk
    一種基於內存的分佈式計算框架,用於實時計算場景較多;

  • Oozie
    一個管理hadoop job 的工作流程調動管理系統,用於協調多個MapReducer任務的執行;

  • Hive
    基於Hadoop的一個數據倉庫工具,定義了一種類似SQL的查詢語言(HQL),將SQL轉化爲MapReduce任務在Hadoop上執行。通常用於離線分析。

  • Impala
    用於處理存儲在Hadoop集羣中大量數據的MPP(大規模並行處理)SQL查詢引擎,與Hive不同,不基於MapReducer算法。它實現了一個基於守護進程的分佈式結構,負責在同一臺機器上運行的查詢執行所有方面,執行效率高於Hive。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章