在Linux下搭建Hadoop分佈式集羣

原創

李润泽

2020-02-22 00:11

【設置網絡連接】

首先我們要設置虛擬機NAT方式（自動分配IP地址）連接外網

進行更新源的操作（具體操作見：http://blog.csdn.net/arnold_lee_yc/article/details/74846263）

【安裝Mysql】

sudo apt install mysql-server

驗證是否安裝成功

mysql -uroot -pa
show databases;
exit

【創建jar包存放目錄】

mkdir software
cd ~/software

【上傳jdk hadoop】

rz

【在/目錄下創建文件夾】

sudo mkdir mysoftware

【更改mysoftware所屬】

sudo chown -R hadoop:hadoop mysoftware

【進入mysoftware並解壓jdk、hadoop】

cd mysoftware
tar -zxvf ~/software/jdk-8u101-linux-x64.tar.gz
tar -zxvf ~/software/hadoop-2.7.3.tar.gz

【配置環境變量】

vim ~/.profile
輸入以下內容：
export JAVA_HOME=/mysoftware/jdk1.8.0_101
export HADOOP_HOME=/mysoftware/hadoop-2.7.3
export PATH="$JAVA_HOME/bin:$HADOOP_HOME/bin:$HOME/bin:$HOME/.local/bin:$PATH"

【重啓虛擬機檢查是否安裝成功】

sudo reboot
javac -version
java -version
hadoop version

【更改NAT連接方式，不再自動分配地址】（這樣當我們在不同環境開發，都不用去修改ip地址）

【將ip地址修改爲靜態ip】

sudo vim /etc/network/interfaces

【配置主從機ip地址映射】

sudo vim /etc/hosts

【初始化ssh（便於無密碼登錄）】

rm -rf .ssh
ssh-keygen -t rsa -P ""
cat id_rsa.pub >> authorized_keys

【添加配置信息】

cd /mysoftware/hadoop-2.7.3/etc/hadoop/
vim hadoop-env.sh
輸入以下內容：
export JAVA_HOME=/mysoftware/jdk1.8.0_101

vim core-site.xml
輸入以下內容：
<configuration>
   <!--外部訪問hadoopURL-->
  <property>
     <name>fs.default.name</name>
     <value>hdfs://master:9000</value>
  </property>

   <!--hadoop產生臨時文件所存放的位置-->
  <property>
     <name>hadoop.tmp.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/tmp</value>
  </property>
</configuration>

vim hdfs-site.xml
輸入以下內容：
<configuration>
     <!--文件系統中每一個文件塊的重複份數，建議使用奇數份-->
   <property>
     <name>dfs.replication</name>
     <value>3</value>
   </property>

     <!--文件系統中元數據存放的位置-->
   <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/dfs/name</value>
   </property>

     <!--文件系統數據塊存放的位置，數據塊的大小默認是128M-->
   <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/mysoftware/hadoop-2.7.3/dfs/data</value>
   </property>

     <!--對文件系統中數據訪問時是否進行權限驗證，默認true-->
   <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property>
</configuration>

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
輸入以下內容：
<configuration>
     <!--hadoop分佈式計算框架的處理交給哪個平臺處理-->
   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>
</configuration>

vim yarn-site.xml
輸入以下內容：
<configuration>
     <!--hadoop分佈式計算框架的資源調度管理的主機-->
   <property>
     <name>yarn.resourcemanager.hostname</name>
     <value>master</value>
   </property>

     <!--hadoop分佈式計算框架的資源處理方式-->
   <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
   </property>
</configuration>

vi slaves
輸入以下內容：
slave01
slave02
slave03

【克隆主機】
進入每一個克隆機修改IP地址和主機名

sudo vim /etc/network/interface			配置IPv4 子網掩碼 默認網關（網段要和VMnet8的網段一致）
sudo vim /etc/hostname                          分別改爲slave01  slave02  slave03

【啓動hadoop】
第一次啓動時執行格式化操作（僅第一次使用時執行，只有再也不用格式化）

hdfs namenode -format

啓動hadoop分佈式存儲系統

cd /mysoftware/hadoop-2.7.3
sbin/start-yarn.sh

查看java進程來確定hadoop是否啓動成功

jps

看主節點是否會出現 namenode，secondarynamenode
看從節點是否會出現datanode
出現代表，hdfs啓動成功，否則，表示失敗，返回日誌查看原因

less logs/hadoop-hadoop-namenode-master.log    查看namenode-master日誌信

將本地文件上傳到hdfs中

cd ~/data
hdfs dfs -put *.txt /        將data目錄下的所有.txt文件上傳至hdfs的根目錄下

開啓集羣資源管理

sbin/start-yarn.sh

調用mapreduce的jar包進行運算

cd /mysoftware/hadoop-2.7.3/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /*.txt /out    統計單詞數量
hdfs dfs -cat /out/*       查看結果

【關閉hadoop】

cd /mysoftware/hadoop-2.7.3
sbin/stop-yarn.sh      關閉集羣資源管理
sbin/stop-dfs.sh       關閉hdfs分佈式文件系統

【關閉虛擬機】

sudo shutdown -h now

李潤澤

發佈了27 篇原創文章 · 獲贊 11 · 訪問量 2萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

在Linux下搭建Hadoop分佈式集羣

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

CCF 201709-2 公共鑰匙盒（Java 100分）

爲什麼初始化遠程倉庫要使用git init --bare

C++程序設計重點總結（譚浩強版）

CCF 201809-2 買菜（Java 100分）

C++錯題整理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結