Hadoop基本知識

參考:http://hadoop.apache.org/


Hadoop是apache開源項目,是一個分佈式系統架構,由一些部件組成:

1. Hadoop HDSF:Hadoop Distributed File System 一個分佈式文件系統,是Google File System的開源版本

2. Hadoop YARN:任務調度和集羣資源管理框架

3. Hadoop MapReduce:基於YARN的大數據並行處理系統


此外Hadoop相關的項目還包括:

1. Ambari:基於web的hadoop集羣服務、管理和監控工具

2. Avro:數據串行化系統

3. Cassandra:可擴展NoSQL分佈式數據庫系統

4. Chukwa:管理大型分佈式系統的數據收集系統

5. HBase:可擴展分佈式數據庫系統,支持結構化大表的存儲

6. Hive:基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行

7. Mahout:可擴展的機器學習和數據挖掘庫

8. Pig:並行計算的高級數據流語言和執行框架

9. Spark:用於Hadoop數據分析的快速、通用的計算引擎

10. Tez:通用的數據流編程框架,基於YARN

11. ZooKeeper:分佈式應用的高性能協調系統

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章