大數據入門

Hadoop生態圈技術

初識Hadoop:

  • apache下面的開源產品
  • 通常指的是生態圈,包括HDFS,YARN,Hive
  • 用於搭建大型數據倉庫
  • 用於PB級分佈式數據存儲,處理,分析,統計
  • 存儲在廉價的機器上,具有成熟的生態圈

文件系統HDFS:

  • 將文件切分成指定大小的數據塊並以多副本存儲在多個機器上
  • Hadoop實現了一個分佈式文件系統
  • 這裏寫圖片描述

YARN:
- 負責整個集羣資源的管理和調度
- 擴展性、容錯性和整個框架的資源調度
MapReduce:
- 海量數據的離線處理
- 擴展性和容錯性


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章