Hadoop學習筆記(1)-Hadoop生態系統

0.前言

先介紹下現在的整體大數據架構的內容。見下圖。
這裏寫圖片描述

右邊的黑框部分是hadoop的核心架構。包括HDFS,MapReduce,yarn,hive,hbase。
中間紅框部分是saprk的生態圈,有RDD,sparkCore,sparkSQL,sparkGraphX,sparkML,sparkR,sparkStreaming。Spark可以完全代替Hadoop中的MapReduce部分。
現在的hadoop+spark是最重要的大數據框架。可以用來解決J2EE,.NET,LAMP開發的系統平臺的數據處理;支持各類終端設備的數據中心;HQL(理解爲面向對象的SQL語句)的查詢。

1.Hadoop生態系統解析與實際應用

1.1 Hadoop是一個適合分佈式海量數據存儲和處理的大數據存儲計算引擎
1.2 Hadoop核心包含三大部分:
a) HDFS:高效、可靠、低成本的分佈式數據存儲首選方案;
b) MapReduce: Hadoop的分佈式計算模型,基於該模型產生了很多Hadoop適合於具體場景的計算框架,例如Hive、Mahout等;但是由於其先天DNA的缺陷,導致在實現迭代類型的算法的時候顯得力不從心,所以正在逐漸和徹底的被新一代最火爆的大數據計算框架Spark所取代;
c) Yarn:大數據集羣資源管理器,用於管理同一個集羣中不同大數據計算框架資源的使用;
1.3 建議實際生產環境下使用Hadoop 2.6.x版本,http://hadoop.apache.org/releases.html
1.4 Hadoop的生態系統

這裏寫圖片描述

HDFS:海量分佈式數據的存儲;
MapReduce:海量數據的計算框架;
Sqoop/HIHO:DB和HDFS是相互導入導出數據;
Hive/Pig:在MapReduce的基礎上構建的更加方便人們使用Hadoop的子框架;
Ganglia:集羣的監控管理工具;
ZooKeeper:集羣的同步工具,一般用來做HA;
HBase:OLTP(On-Line Transaction Processing聯機事務處理系統)存儲和高速實時查詢系統;
1, Hive:Hadoop的數據倉庫,包含兩部分數據倉庫本身以及基於數據倉庫的查詢計算引擎;把數據映射成爲數據庫的表並提供完整的SQL查詢功能,實際計算的時候是在背後把SQL語句轉換成爲MapReduce任務進行運行,所以計算Hive的計算引擎只是一個單機版本的客戶端而已;
2, Pig,使用SQL-Like的語言Pig Latin來進行Hadoop更加簡易的操作和編程接口;
3, HBase:是Hadoop的數據庫,其本質是一個NoSQL類型的實時高速檢索引擎;
4, ZooKeeper:一般用做HA(高可用);
5, Sqoop:用於在Hadoop和關係型數據庫之間的數據相互轉移的工具

具體每塊內容後面一一學習。博主也是學習中。


本博客學習自王家林的視頻。

發佈了54 篇原創文章 · 獲贊 53 · 訪問量 27萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章