Hadoop生态体系简单介绍

 

一、数据来源层

1、结构化数据(数据库)

2、半结构化数据(日志文件)

3、非结构化数据(视频,PPT等)

二、数据传输层

1、Flume收集日志

2、Sqoop数据传递

3、Kafka消息队列

三、数据存储层

1、HDFS分布式文件存储

2、HBase非关系数据库

四、资源管理层

Yarn资源管理

五、数据计算层

1、MapReduce离线计算

(1)Hive数据查询

(2)Mahout数据挖掘

2、Spark Core内存计算

(1)Mahout数据挖掘

(2)Spark Mlib数据挖掘

(3)Spark R数据分析

(3)Spark Sql 数据查询

(3)Spark Streaming实时计算

3、Storm实时计算

六、任务调度层

1、Oozie任务调度

2、azkaban任务调度

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章