1.在VM中安裝centos,並開啓VM tools,關聯共享文件夾
2.安裝jdk
下載linux的jdk到共享文件夾,在centos根目錄創建soft文件夾,並將jdk拷貝過去。
默認centos的共享文件夾目錄在 /mnt/hgfs 文件夾下
tar -xvf jdk-xxx.tar.gz
解壓jdk,並創建符號鏈接
ln -s /soft/jdk-xxx /soft/jdk
配置環境變量
編輯 /etc/profile
export JAVA_HOME=/soft/jdk
export PATH=$PATH:$JAVA_HOME/bin
使環境變量即刻生效
source /etc/profile
3.安裝 hadoop
下載 hadoop放置到共享文件夾下,並在centos中複製到 /soft 文件夾中
tar -xvf hadoop-xxx.tar.gz
解壓jdk,並創建符號鏈接
ln -s /soft/hadoop-xxx /soft/hadoop
配置環境變量
編輯 /etc/profile
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
使環境變量即刻生效
source /etc/profile
4.配置hadoop
4.1 standalone
默認就是standalone模式,此時的hdfs系統顯示本機目錄
4.2 pseudodistributed mode 僞分佈模式
進入 ${HADDOP_HOME}/etc/hadoop 文件夾配置4個xml文件
<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<?xml version="1.0"?>
<!-- yarn-site.xml -->
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
配置ssh
生成ssh密鑰對,將ssh公鑰到authorised_keys中
cat /root/.ssh/id_rsa/id_rsa.pub >> authorized_keys
5.三種模式共存
創建local,pesudo,full三個文件夾,分別放置三種模式的配置文件,然後建立符號鏈接指向需要使用的模式的文件夾
ln -s full hadoop
6.啓動hadoop
初始化hdfs
hadoop namenode -format
在centos下啓動時start-all.sh時,會報找不到JAVA_HOME,此時需要手動地指定JAVA_HOME路徑,在${HADOOP_HOME}/etc/hadoop/hadoop_env.sh中編輯
...
export JAVA_HOME=/soft/jdk
...
啓動所有hadoop進程
start-all.sh
查看所有java進程 jps
3152 ResourceManager
3671 DataNode
4039 NodeManager
3804 SecondaryNameNode
3550 NameNode
4143 Jps
在hdfs文件系統中創建遞歸目錄
hdfs dfs -mkdir -p /user/centos/hadoop
查看是否創建成功
hdfs dfs -ls -R /
通過webui查看hadoop文件系統
http://localhost:50070/
hadoop中的端口
50070 // namenode http port
50075 // datanode http port
50090 // 2 namenode http port
8020 // namenode rpc port
50010 // datanode rpc port
停止所有hadoop進程
stop-all.sh
7.hadoop四大模塊
common
hdfs // namenode + datanode + 2namenode
mapred
yarn // resourcemanager + nodemanager
啓動
start-dfs.sh // namenode + datanode + 2namenode
start-yarn.sh // resourcemanager + nodemanager
停止
stop-dfs.sh
stop-yarn.sh