Hadoop 生態

原創

2021-03-28 16:26

來源於百度百科
Hadoop是一個由Apache基金會所開發的分佈式系統基礎架構。用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力進行高速運算和存儲。同常是指一個更廣泛的概念-Hadoop生態圈。

HDFS
分佈式文件系統
YARN
YARN（Yet Another Resource Negotiator)，job調度和資源管理框架
MapReducer
分佈式數據處理模型和執行環境（分佈式計算）
ETL
ETL是將業務系統的數據經過抽取（Extract）、清洗轉換（Transform）之後加載（Load）到數據倉庫的過程，目的是將企業中的分散、零亂、標準不統一的數據整合到一起，爲企業的決策提供分析依據。
Sqoop
一款開源工具，主要用在Hadoop、Hive與傳統數據庫（Mysql）間進行數據傳遞，可以將關係型數據庫數據導入到Hadoop的HDFS中，也可以從HDFS中導入關係型數據庫中；

Kafka
一種高吞吐量的分佈式發佈訂閱消息系統；
HBase
一個建立在HDFS之上，面向列的針對性結構化數據的可伸縮、高可靠、高性能、分佈式的動態數據庫，保存的數據可以使用Mapreducer來處理，將數據存儲和並行計算完美的結合在一起；
Storm
對數據流做連續查詢，在計算時就將結果以流動形式輸出給用戶，用於“連續計算”；
Spark
一種基於內存的分佈式計算框架，與Mapreducer不同的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用於數據挖掘與機器學習等需要迭代的MapReduce的算法，內部提供了大量的庫，如 Spark Sql、Spark Streaming等；
Fiilnk
一種基於內存的分佈式計算框架，用於實時計算場景較多；
Oozie
一個管理hadoop job 的工作流程調動管理系統，用於協調多個MapReducer任務的執行；
Hive
基於Hadoop的一個數據倉庫工具，定義了一種類似SQL的查詢語言(HQL),將SQL轉化爲MapReduce任務在Hadoop上執行。通常用於離線分析。
Impala
用於處理存儲在Hadoop集羣中大量數據的MPP（大規模並行處理）SQL查詢引擎，與Hive不同，不基於MapReducer算法。它實現了一個基於守護進程的分佈式結構，負責在同一臺機器上運行的查詢執行所有方面，執行效率高於Hive。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.