什麼是Hadoop?
Hadoop是一個可靠的,可擴展的,分佈式計算的開源軟件。
包括一下四個模塊:
- Hadoop Common:常見的實用程序,支持其他Hadoop模塊。
- Hadoop Distributed File System(HDFS):高傳輸速率的分佈式文件系統。
- Hadoop Yarn:Job調度和集羣資源管理的框架
- Hadoop MapReduce:基於YARN系統的並行處理大數據集的編程模型
其他Hadoop相關的項目(Hadoop生態圈)
- Ambari:一個基於web的工具,用來供應、管理和監測Apache Hadoop集羣包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari 也提供一個可視的儀表盤來查看集羣的健康狀態(比如熱圖),並且能夠以一種用戶友好的方式根據其特點可視化的查看MapReduce、pig和Hive 應用來診斷其性能特徵。
- Avro :數據序列化系統。
- Cassandra :可擴展的多主節點數據庫,而且沒有單節點失敗情況。
- Chukwa : 管理大型分佈式系統的數據收集系統
- HBase ; 一個可擴展的分佈式數據庫,支持大表的結構化數據存儲
- Hive : 一個提供數據概述和AD組織查詢的數據倉庫
- Mahout :可擴展大的機器學習和數據挖掘庫
- Pig :一個支持並行計算的高級的數據流語言和執行框架
- Spark : 一個快速通用的Hadoop數據的計算引擎。spark 提供一個簡單和富有表現力的編程模型並支持多領域應用,包括ETL、機器學習、流處理 和圖計算。
- Tez : 一個通用的數據流處理框架,構建在Hadoop YARN上,提供一個有力的靈活的引擎來執行一個任意的DAG任務來處理數據(批處理和交互式兩種方式)。Tez 可以被Hive、Pig和其他Hadoop生態系統框架和其他商業軟件(如:ETL工具)使用,用來替代Hadoop MapReduce 作爲底層的執行引擎。
- ZooKeeper :一個應用於分佈式應用的高性能的協調服務。
開始學習hadoop
Hadoop的版本
Apache Hadoop使用。。的版本格式。
- major:主要版本用於引入大量的,可能不兼容的更改。
- minor:次要版本用於在主要發行版本中引入新的兼容功能。
- maintenance:維護版本包括錯誤修復或低風險可支持性更改。
- “-alphaX”和“-betaX”後綴版本可以被視爲a.b.c版本,第一個(例如“-alpha1”)是a.b.0版本。