Hadoop基本知识

参考:http://hadoop.apache.org/


Hadoop是apache开源项目,是一个分布式系统架构,由一些部件组成:

1. Hadoop HDSF:Hadoop Distributed File System 一个分布式文件系统,是Google File System的开源版本

2. Hadoop YARN:任务调度和集群资源管理框架

3. Hadoop MapReduce:基于YARN的大数据并行处理系统


此外Hadoop相关的项目还包括:

1. Ambari:基于web的hadoop集群服务、管理和监控工具

2. Avro:数据串行化系统

3. Cassandra:可扩展NoSQL分布式数据库系统

4. Chukwa:管理大型分布式系统的数据收集系统

5. HBase:可扩展分布式数据库系统,支持结构化大表的存储

6. Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

7. Mahout:可扩展的机器学习和数据挖掘库

8. Pig:并行计算的高级数据流语言和执行框架

9. Spark:用于Hadoop数据分析的快速、通用的计算引擎

10. Tez:通用的数据流编程框架,基于YARN

11. ZooKeeper:分布式应用的高性能协调系统

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章