Hadoop(1)
Hadoop簡介和Hadoop的安裝
Hadoop 簡介
Hadoop概念
- 由Apache基金會開發的一個分佈式系統基礎架構
- 主要解決海量數據的存儲和海量數據的計算問題
- 借鑑了谷歌的GFS和Map-Reduce方面的兩篇論文
Hadoop的常見發行版本
- Apache
原始版本
- Cloudera
大型互聯網企業中使用較多
- Hortonworks
文檔較好
Hadoop的版本
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-nWPoptwR-1577090421576)(未命名.assets/1576677600746.png)]
- Hadoop1.0:包含了HDFS以及MapReduce
- Hadoop2.0:包含了HDFS、MapReduce以及Yarn.Hadoop2.0和Hadoop1.0完全不兼容,在Hadoop2.0的高本版中,也支持Ozone
- Hadoop3.0:包含了Hadoop所有的模塊
Hadoop的優勢
-
高可靠性
有多個副本
高擴展性
-
高效性
計算機任務可以並行運行
-
高容錯性
能夠自動將失敗的任務重新分配
Hadoop的組成
現在常用的是Hadoop2.x版本,所以現在常見的組成:
HDFS(存儲數據)
- NameNode: 存儲元數據,相當於一個索引,只有一個
DataNode: 文件數據塊,有備份,可以有多個
Secondary NameNode: HDFS狀態的後臺輔助程序
MapReduce (計算)
- Maper
- Reducer
Yarn(資源調度)
-
ResourceManager:
只有一個,負責處理客戶端的請求,和整個集羣的調度
-
NodeManager:
管理單個節點
-
ApplicationMaster:
一個臨時的管理程序,一個任務對應一個
-
Container:
容器,封裝了某個節點的資源
Common(輔助工具)
Hadoop的安裝
- 將Hadoop的tar.gz安裝包解壓(一般是 /opt/ 目錄下)
tar -zxv -f hadoop-2.7.7.tar.gz -C /opt/module/
- 配置Hadoop的環境變量(/etc/profile)
vim /etc/profile
添加以下內容:
export HADOOP_HOME=/opt/hadoop-2.7.7(這個是剛剛Hadoop解壓到的目錄路徑)
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
然後保存退出
- 加載配置文件
source /etc/profile
- 測試是否安裝成功
hadoop version