我的疑問：hadoop的單機、僞分佈式、分佈式區別

一單機模式standalone
單機模式是Hadoop的默認模式。當首次解壓Hadoop的源碼包時，Hadoop無法瞭解硬件安裝環境，便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均爲空。當配置文件爲空時，Hadoop會完全運行在本地。因爲不需要與其他節點交互，單機模式就不使用HDFS，也不加載任何Hadoop的守護進程。該模式主要用於開發調試MapReduce程序的應用邏輯。

二僞分佈模式安裝
tar xzvf hadoop-0.20.2.tar.gz
Hadoop的配置文件：
conf/hadoop-env.sh 配置JAVA_HOME
core-site.xml 配置HDFS節點名稱和地址
hdfs-site.xml 配置HDFS存儲目錄，複製數量
mapred-site.xml 配置mapreduce的jobtracker地址

配置ssh，生成密匙，使到ssh可以免密碼連接
(RSA算法，基於因數不對稱加密：公鑰加密私鑰才能解密，私鑰加密公鑰才能解密)
cd /root
ssh -keygen -t rsa
cd .ssh
cp id_rsa.pub authorized_keys覆蓋公鑰，就能免密碼連接

啓動Hadoop bin/start-all.sh
停止Hadoop bin/stop-all.sh

二完全分佈式模式
1. 配置etc/hosts文件,使主機名解析爲IP 或者使用DNS服務解析主機名
2. 建立hadoop運行用戶: useradd grid>passwd grid
3. 配置ssh密碼連入: 每個節點用grid登錄，進入主工作目錄，ssh -keygen -t rsa生產公鑰，然後將每個節點的公鑰複製到同一個文件中，再將這個包含所有節點公鑰的文件複製到每個節點authorized_keys目錄，這個每個節點之間彼此可以免密碼連接
4. 下載並解壓hadoop安裝包
5. 配置namenode，修改site文件
6. 配置hadoop-env.sh
7. 配置masters和slaves文件
8. 向各個節點複製hadoop
9. 格式化namenode
10.啓動hadoop
11.用jps檢驗各後臺進程是否成功啓動

vim /etc/hosts
vim /etc/sysconfig/network
vim /etc/sysconfig/network-scripts/ifcfg-eth0
service network restart

service NetworkManager stop
chkconfig NetworkManager off
service iptables stop
chkconfig iptables off
service ip6tables stop
chkconfig ip6tables off
vim /etc/sysconfig/selinuxenforce-->disabled
setenforce 0
getenforce

useradd hadoop
passwd hadoop

secureCRT生產公鑰，將公鑰拷貝到/home/hadoop/.ssh下：
chmod 700 .ssh
ssh-keygen -i -f PubKey_Master_Hadoop.pub >> authorized_key
chmod 600 authorized_keys
vim /etc/ssh/sshd-config如下：
RSAAuthentication yes # 啓用 RSA 認證
PubkeyAuthentication yes # 啓用公鑰私鑰配對認證方式
AuthorizedKeysFile .ssh/authorized_keys # 公鑰文件路徑（和上面生成的文件同）
PasswordAuthentication no # 禁止密碼驗證登陸（根據需要，不過一般啓用了密鑰，就不用密碼了）
service sshd restart
secureCRT使用PublicKey（PubKey_Master_Hadoop.pub）連接測試

Master 使用ssh公鑰連接Slave：
掛載光盤，創建yum源：
vim /etc/fstab
vim /etc/yum.repos.d/rhel-source.repo
yum -y install ssh
yum -y install rsync

Master host:
mkdir .ssh
ssh-keygen –t rsa –P ''
cat id_rsa.pub >> authorized_keys
chmod 700 .ssh
chmod 600 authorized_keys
ssh localhost
scp id_rsa.pub [email protected]:~/,ssh
ssh 192.168.175.12

Slave host:
mkdir .ssh
cat id_rsa.pub >> authorized_keys
chmod 700 .ssh
chmod 600 authorized_keys
vim /etc/ssh/sshd-config如上
service sshd restart

安裝java：拷貝到/usr/hava
chmod +x jdk-6u37-linux-x64.bin
vim /etc/profile 添加JAVA_HOME
source /etc profile
=================================
安裝hadoop-1.2.0：拷貝到/usr/hadoop-1.2.0，所以者和組修改爲hadoop
vim /etc/profile:
export JAVA_HOME=/usr/java/jdk1.6.0_37
export HADOOP_HOME=/usr/hadoop-1.2.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

配置hadoop-env.sh:目錄：/usr/hadoop/conf
#export HADOOP_ROOT_LOGGER=DEBUG,console
export JAVA_HOME=/usr/java/jdk1.6.0_37
export HADOOP_HOME_WARN_SUPPRESS=1

配置core-site.xml文件：
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop-1.2.0/tmp</value>
<description>A base for other temporary directories.</description>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://192.168.175.11:9000</value>
</property>

配置hdfs-site.xml文件：
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.datanode.max.xcievers</name> //同時處理文件上限，hbase併發比較大，至少要4096
<value>4096</value>
</property>
<property>
<name>dfs.support.append</name> //如不指定，在使用HDFS存儲的時候，HBase可能會遺失數據
<value>true</value>
</property>

配置mapred-site.xml文件：
<property>
<name>mapred.job.tracker</name>
<value>http://192.168.175.11:9001</value>
</property>

配置masters文件：
master.hadoop或者192.168.175.11
配置slave文件：
slave1.hadoop或者192.168.175.12
slave2.hadoop或者192.168.175.13
slave3.hadoop或者192.168.175.14

=================================
安裝hadoop-2.0.5：拷貝到/usr
tar -zxvf hadoop-2.0.5-alpha.tar.gz
mv hadoop-2.0.5-alpha /usr/hadoop
chown -R hadoop:hadoop hadoop
vim /etc/profile:
# set hadoop path
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH:$HADOOP_HOME:$HADOOP_HOME/bin
source /etc/profile

配置hadoop-env.sh:目錄：/usr/hadoop/etc/hadoop
在末尾添加：export JAVA_HOME=/usr/java/jdk1.6.0_37
配置yarn-env.sh和 .bash_profile：
export HADOOP_PREFIX=/usr/hadoop
export PATH=$PATH:$HADOOP_PREFIX/bin
export PATH=$PATH:$HADOOP_PREFIX/sbin
export HADOOP_MAPRED_HOME=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}
export YARN_HOME=${HADOOP_PREFIX}
export HADOOP_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop

配置core-site.xml文件：
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/hadoop/tmp</value> （備註：請先在 /usr/hadoop 目錄下建立 tmp 文件夾）
<description>A base for other temporary directories.</description>
</property>

<property>
<name>fs.default.name</name>
<value>hdfs://192.168.175.11:9000</value>
</property>
</configuration>
配置hdfs-site.xml文件：修改Hadoop中HDFS的配置，配置的備份方式默認爲3。
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value> (備註：replication 是數據副本數量，默認爲3，salve少於3臺就會報錯)
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
<final>true</final>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
<final>true</final>
</property>
<configuration>
配置mapred-site.xml文件：修改Hadoop中MapReduce的配置文件，配置的是JobTracker的地址和端口。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://192.168.175.11:9001</value>
</property>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.system.dir</name>
<value>file:/home/hadoop/mapred/system</value>
<final>true</final>
</property>
<property>
<name>mapred.local.dir</name>
<value>file:/home/hadoop/mapred/local</value>
<final>true</final>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://192.168.175.11:9001</value>
</property>
</configuration>
配置yarn-site.xml：
<configuration>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.175.11:8080</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.175.11:8081</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.175.11:8082</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
</configuration>

配置masters文件：
master.hadoop或者192.168.175.11
配置slave文件：
slave1.hadoop或者192.168.175.12
slave2.hadoop或者192.168.175.13
slave3.hadoop或者192.168.175.14

mkdir -p /usr/hadoop/tmp
mkdir -p /home/hadoop/dfs/data
mkdir -p /home/hadoop/dfs/name
mkdir -p /home/hadoop/mapred/system
mkdir -p /home/hadoop/mapred/local

格式化HDFS文件系統：使用hadoop用戶，只需格式一次：hadoop namenode -format
開始守護進程
# hadoop-daemon.sh start namenode
# hadoop-daemon.sh start datanode
可以同時啓動：start-dfs.sh
開始 Yarn 守護進程
# yarn-daemon.sh start resourcemanager
# yarn-daemon.sh start nodemanager
或同時啓動：start-yarn.sh
檢查守護進程是否啓動
# jps

將hadoop日誌級別改爲debug，並且在控制檯輸出：export HADOOP_ROOT_LOGGER=DEBUG,console

我的疑問：hadoop的單機、僞分佈式、分佈式區別

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Spark開源框架精彩學習資源分享——DT大數據夢工廠王家林

Spark的枚舉類型實例！scala的枚舉。

Spark方面的大牛博客地址收集！

如何在Spark集羣的work節點上啓動多個Executor?

快被Maven折騰瘋了！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結