參考:http://hadoop.apache.org/
Hadoop是apache開源項目,是一個分佈式系統架構,由一些部件組成:
1. Hadoop HDSF:Hadoop Distributed File System 一個分佈式文件系統,是Google File System的開源版本
2. Hadoop YARN:任務調度和集羣資源管理框架
3. Hadoop MapReduce:基於YARN的大數據並行處理系統
此外Hadoop相關的項目還包括:
1. Ambari:基於web的hadoop集羣服務、管理和監控工具
2. Avro:數據串行化系統
3. Cassandra:可擴展NoSQL分佈式數據庫系統
4. Chukwa:管理大型分佈式系統的數據收集系統
5. HBase:可擴展分佈式數據庫系統,支持結構化大表的存儲
6. Hive:基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行
7. Mahout:可擴展的機器學習和數據挖掘庫
8. Pig:並行計算的高級數據流語言和執行框架
9. Spark:用於Hadoop數據分析的快速、通用的計算引擎
10. Tez:通用的數據流編程框架,基於YARN
11. ZooKeeper:分佈式應用的高性能協調系統