首先這裏推薦一本《hadoop_real-world_solutions_cookbook》,如果有需要可以下載,像我這樣的菜鳥估計只有這樣手把手教學才行咯。
說道hadoop,首當其衝的自然是配置,這個在網上和幾乎沒一本書上都有介紹,我這裏就簡單介紹將我的配置過程中遇到的問題記錄一下:
首先下載hadoop,目前來說最新的是hadoop2.*,我這裏下的是2.2.0,要說和之前有區別,那應該就算是2.*多了yarn吧,這裏不介紹了,ok解壓
tar -zxvf hadoopName.tar.gz
配置環境,
vim /etc/profile
#set java environment
export JAVA_HOME=/home/crazyj/Programs/jdk1.7.0_45
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
#:$JAVA_HOME/lib/mysql-connector-java-3.2.0.jar:$JAVA_HOME/lib/classes12.jar
export PATH=$PATH:$JAVA_HOME/bin
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/home/crazyj/Programs/hadoop-2.2.0
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
export CLASSPATH=$HADOOP_HOME/lib:$CLASSPATH
export PIG_HOME=/home/crazyj/Programs/pig-0.12.0
export PATH=$PATH:$PIG_HOME/bin
export SQOOP_HOME=/home/crazyj/Programs/sqoop-1.4.4
export PATH=$PATH:$SQOOP_HOME/bin
export HBASE_HOME=/home/crazyj/Programs/hbase-0.94.14
export PATH=$PATH:$HBASE_HOME/bin
export HIVE_HOME=/home/crazyj/Programs/hive-0.11.0
export PATH=$PATH:$HIVE_HOME/bin
export MONGODB_HOME=/home/crazyj/Programs/mongodb-linux-i686-2.4.8
export PATH=$PATH:$MONGODB_HOME/bin
這個是我的配置項,後面的配置全部夾在了裏面,以後就不介紹了,之後呢便是
core-site.xml(位置在etc/hadoop下)
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/crazyj/Programs/hadoop-2.2.0/tmp</value>
</property>
</configuration>
這裏需要說明的一點是tmp.dir一定要設定,否則每次系統重啓後都需要對hdfs格式化,具體可以參考這篇博客,tmp目錄的話則需要在hadoop安裝目錄下新建,如果要修改應該也可以。
hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
mapred-site.xml.template
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
</configuration>
這個和以前的有點不太一樣,名字
hadoop-env.sh需要將JAVA_HOME設置成jdk的安裝目錄,配置至此基本完成,這是一個爲分佈的方式,其他方式的分佈到以後用到的時候在配置好了。當然了,這裏需要確保ssh已經安裝上可通過
which ssh
which sshd
which ssh-keygen
查看是否已經安裝ssh,安裝則直接
apt-get install ssh
即可,無密碼登陸則使用
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
當然了需要先創建.ssh文件夾,登陸爲ssh localhost,成功則不需要輸入密碼
第一次啓動先使用
hadoop namenode -format
否則無法啓動,利用sbin目錄下面的start和stop的sh文件即可啓動和停止hadoop的服務。
下一次在寫數據的傳送吧。