参考:http://hadoop.apache.org/
Hadoop是apache开源项目,是一个分布式系统架构,由一些部件组成:
1. Hadoop HDSF:Hadoop Distributed File System 一个分布式文件系统,是Google File System的开源版本
2. Hadoop YARN:任务调度和集群资源管理框架
3. Hadoop MapReduce:基于YARN的大数据并行处理系统
此外Hadoop相关的项目还包括:
1. Ambari:基于web的hadoop集群服务、管理和监控工具
2. Avro:数据串行化系统
3. Cassandra:可扩展NoSQL分布式数据库系统
4. Chukwa:管理大型分布式系统的数据收集系统
5. HBase:可扩展分布式数据库系统,支持结构化大表的存储
6. Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
7. Mahout:可扩展的机器学习和数据挖掘库
8. Pig:并行计算的高级数据流语言和执行框架
9. Spark:用于Hadoop数据分析的快速、通用的计算引擎
10. Tez:通用的数据流编程框架,基于YARN
11. ZooKeeper:分布式应用的高性能协调系统