大数据入门

Hadoop生态圈技术

初识Hadoop:

  • apache下面的开源产品
  • 通常指的是生态圈,包括HDFS,YARN,Hive
  • 用于搭建大型数据仓库
  • 用于PB级分布式数据存储,处理,分析,统计
  • 存储在廉价的机器上,具有成熟的生态圈

文件系统HDFS:

  • 将文件切分成指定大小的数据块并以多副本存储在多个机器上
  • Hadoop实现了一个分布式文件系统
  • 这里写图片描述

YARN:
- 负责整个集群资源的管理和调度
- 扩展性、容错性和整个框架的资源调度
MapReduce:
- 海量数据的离线处理
- 扩展性和容错性


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章