數據高級開發系列筆記----第一節課 Hadoop簡介

一、hadoop的發展歷史      

網上資料很多,這裏就不浪費時間介紹了,感興趣的自己找“度娘”。

注意一點: 狹義上來說,hadoop就是單獨指代hadoop這個軟件 , 廣義上來說,hadoop指代大數據的一個生態圈,包括很多其他的軟件

在下面的章節中,沒有特殊說明,我們都是指的是hadoop這個軟件。

hadoop生態大致包括以下技術:

二、hadoop的版本介紹

  • 0.x系列版本:hadoop當中最早的一個開源版本,在此基礎上演變而來的1.x以及2.x的版本

  • 1.x版本系列:hadoop版本當中的第二代開源版本,主要修復0.x版本的一些bug等

  • 2.x版本系列:架構產生重大變化,引入了yarn平臺等許多新特性,也是現在生產環境當中使用最多的版本

  • 3.x版本系列:在2.x版本的基礎上,引入了一些hdfs的新特性等,且已經發型了穩定版本,未來公司的使用趨勢

注意:我們以後的課程都是以hadoop3.x版本爲例,有些地方的配置及概念是有別於2.x的。

三、 hadoop生產環境版本選擇

Hadoop三大發行版本:Apache、Cloudera、Hortonworks。

  • Apache版本最原始(最基礎)的版本,對於入門學習最好。

  • Cloudera在大型互聯網企業中用的較多。

  • Hortonworks文檔較好。

  • 注:Cloudera和Hortonworks你可以理解爲Linux和Centos的關係。

四、hadoop的架構模塊介紹

Hadoop由三個模塊組成:分佈式存儲HDFS、分佈式計算MapReduce、資源調度引擎Yarn

  • HDFS模塊:

    • namenode:主節點,主要負責HDFS集羣的管理以及元數據信息管理

    • datanode:從節點,主要負責存儲用戶數據

    • secondaryNameNode:輔助namenode管理元數據信息,以及元數據信息的冷備份

  • Yarn模塊:

    • ResourceManager:主節點,主要負責資源分配

    • NodeManager:從節點,主要負責執行任務

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章