Hadoop - 簡介
Hadoop可運行於一般的商用服務器上,具有高容錯、高可靠性、高擴展性等特點
特別適合寫一次,讀多次的場景
適合
- 大規模數據
- 流式數據(寫一次,讀多次)
- 商用硬件(一般硬件)
不適合
- 低延時的數據訪問
- 大量的小文件
- 頻繁修改文件(基本就是寫1次)
Hadoop架構
- HDFS: 分佈式文件存儲
- YARN: 分佈式資源管理
- MapReduce: 分佈式計算
- Others: 利用YARN的資源管理功能實現其他的數據處理方式
Hadoop框架包括以下四個模塊:
Hadoop Common: 這些是其他Hadoop模塊所需的Java庫和實用程序。這些庫提供文件系統和操作系統級抽象,幷包含啓動Hadoop所需的Java文件和腳本。
Hadoop YARN: 這是一個用於作業調度和集羣資源管理的框架。
Hadoop Distributed File System (HDFS™): 分佈式文件系統,提供對應用程序數據的高吞吐量訪問。
Hadoop MapReduce:這是基於YARN的用於並行處理大數據集的系統。
Hadoop-安裝配置
Hadoop由GNU / Linux平臺及其版本支持。因此,我們必須安裝一個Linux操作系統來設置Hadoop環境。
在Linux進行網絡資源配置後,要用SSH實現遠程登錄和免密登陸
查看虛擬機是否安裝ssh服務:(如下圖所示即爲安裝好)
查看虛擬機是否啓動ssh服務:(已經開啓服務如圖所示)
虛擬機的遠程連接工具CRT:(文件->快速連接)
連接hadoop01:
如下圖即爲連接到hadoop01:
修改一些相關數據:(options->session options)
(Appearance ->font)
以上述同樣的操作完成連接hadoop02 hadoop03(中間會彈出一個框 選擇OK)
主機與主機之間發送消息的機制:
SSH免密登錄原理:
一 SSH免密登陸
一 hadoop01 產生密鑰對:(三個回車鍵)
以同樣的方法產生hadoop02 03的密鑰對
查看hadoop01的 公鑰私鑰:
二 將三臺虛擬機上的公鑰拷貝到同一臺機器上:
將hadoop01公鑰拷貝:
將hadoop02公鑰拷貝:
將hadoop03公鑰拷貝:
三 複製第一臺機器的認證到替他機器上:
將第一臺機器的公鑰文件拷貝到其他機器上
將hadoop01中的公鑰文件拷貝到hadoop02上:
將hadoop01中的公鑰文件拷貝到hadoop03上:
驗證免密登陸成功:
hadoop01 免密登陸02 03:
hadoop02 免密登陸01 03:
hadoop03 免密登陸01 02:
Hadoop集羣部署模式
二 jdk安裝
1.下載並安裝jdk
將jdk傳輸進來:
打開srt:
解壓到對應的文件夾下
重命名
2.配置jdk環境
在文章末尾加上三句話:
使上述三句話修改成效
3.驗證jdk環境
三 hadoop 安裝
1.下載並安裝hadoop
將jdk傳輸進來:
解壓到對應的文件夾下並進行查看
2.配置hadoop環境
在文章末尾加上兩句話:
使上述修改成效
3.驗證hadoop環境
四 hadoop集羣配置
1.配置hadoop集羣主節點
修改 hadoop-env.sh 文件
(用系統中java的位置替換JAVA_HOME值來重置hadoop-env.sh文件中的java環境變量。)
修改core-site.xml文件
(core-site.xml文件包含諸如用於Hadoop實例的端口號,爲文件系統分配的內存,用於存儲數據的內存限制以及讀/寫緩衝區大小的信息。)
修改hdfs-site.xml文件
修改mapred-site.xml文件
修改yarn-site.xml文件
修改slaves文件 刪除默認的localhost 修改如下:
2.將集羣主節點的配置文件分發給其他子節點
(以同樣的方式分發給hadoop03)
最後要在hadoop02 03上面執行:source /etc/profile
五 Hadoop集羣測試
一 格式化文件系統
出現如圖所示即可:
二 開啓和關閉hadoop集羣
- 單個節點逐個開啓或關閉
先啓動HDFS的主節點,再啓動從節點:
以同樣的方式啓動hadoop02 03的從節點(略)
先啓動yarn的主節點,再啓動從節點:
以同樣的方式啓動hadoop02 03的從節點(略)
啓動hadoop02的從節點:
關閉hdfs主從節點:
關閉yarn的主從節點:
關閉hadoop02 03從節點:
- 腳本一鍵開啓或關閉
hadoop01啓動hdfs腳本:
查看對應的hadoop02 03 可見啓動成功
hadoop01啓動yarn腳本:
查看對應的hadoop02 03 可見啓動成功
hadoop01關閉hdfs腳本:
查看對應的hadoop02 03 可見啓動成功
hadoop01關閉yarn腳本:
查看對應的hadoop02 03 可見啓動成功
- 一鍵開啓或關閉所有集羣(關閉集羣start改爲 stop)
查看對應的hadoop02 03 可見啓動成功
三 通過UI界面查看hadoop運行狀態(確保服務主從節點已開啓) - Windows訪問hdfs:
C:\Windows\System32\drivers\etc 在這個路徑下打開 host,填寫如下,形成一一映射
關閉防火牆:
禁止防火牆開機啓動:
上述兩個操作在hadoop02 03上分別進行後 如圖所示即爲成功
- Windows訪問yarn: