1. 單機運行步驟
a. 設置 hadoop-env.sh 中 JAVA_HOME
b. 在hadoop-env.sh 中 設置自己的fs.default.name,dfs.data.dir,dfs.name.dir
c. 安裝ssh
$ sudo apt-get install ssh
$ sudo apt-get install rsync
d. 檢查是否可以不用密碼登陸
$ ssh localhost
如果不可以
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
e. 格式化DFS
$ hadoop namenode -format
f. 啓動HDFS
$ ./bin/start-dfs.sh
g. 檢查是否成功
$ hadoop dfs -ls
2. 分佈式運行步驟
a. 生成密鑰,使主從節點可以無密碼身份驗證,在每臺機器上執行
$ ssh-keygen -t rsa
生成密鑰文件, copy id_rsa.pub to master.pub, 然後把master.pub 拷到從機上
執行
$ cat master.pub >>authorized_keys
在主機執行ssh 從機host 看看是否可以無密碼登陸
b. 設置 conf/slaves conf/master 添加自己的主從地址,然後拷貝到其他機器
c. 拷貝主機的 hadoop-site.xml 到所有的從機
d. 格式化主機HDFS,重啓,然後檢查日誌,並且訪問主機端口50070看datanode節點是否工作正常