一、hadoop的發展歷史
網上資料很多,這裏就不浪費時間介紹了,感興趣的自己找“度娘”。
注意一點: 狹義上來說,hadoop就是單獨指代hadoop這個軟件 , 廣義上來說,hadoop指代大數據的一個生態圈,包括很多其他的軟件
在下面的章節中,沒有特殊說明,我們都是指的是hadoop這個軟件。
hadoop生態大致包括以下技術:
二、hadoop的版本介紹
-
0.x系列版本:hadoop當中最早的一個開源版本,在此基礎上演變而來的1.x以及2.x的版本
-
1.x版本系列:hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug等
-
2.x版本系列:架構產生重大變化,引入了yarn平臺等許多新特性,也是現在生產環境當中使用最多的版本
-
3.x版本系列:在2.x版本的基礎上,引入了一些hdfs的新特性等,且已經發型了穩定版本,未來公司的使用趨勢
注意:我們以後的課程都是以hadoop3.x版本爲例,有些地方的配置及概念是有別於2.x的。
三、 hadoop生產環境版本選擇
Hadoop三大發行版本:Apache、Cloudera、Hortonworks。
-
Apache版本最原始(最基礎)的版本,對於入門學習最好。
-
Cloudera在大型互聯網企業中用的較多。
-
Hortonworks文檔較好。
-
注:Cloudera和Hortonworks你可以理解爲Linux和Centos的關係。
四、hadoop的架構模塊介紹
Hadoop由三個模塊組成:分佈式存儲HDFS、分佈式計算MapReduce、資源調度引擎Yarn
-
HDFS模塊:
-
namenode:主節點,主要負責HDFS集羣的管理以及元數據信息管理
-
datanode:從節點,主要負責存儲用戶數據
-
secondaryNameNode:輔助namenode管理元數據信息,以及元數據信息的冷備份
-
-
Yarn模塊:
-
ResourceManager:主節點,主要負責資源分配
-
NodeManager:從節點,主要負責執行任務
-