其實這不是首次觸電hadoop,早在大學畢設中就已經採用hadoop開發了,當時開發的是一個hadoop爲基礎的搜索引擎,包括爬蟲,倒排索引、查詢都基於hadoop的分佈式平臺實現。但是當時還不懂什麼叫集羣,更不要說分佈式了。現在工作已經一年了,對集羣開發,分佈式,大數據等知識都有了一定的理解和認識,所以現在準備重新拿起hadoop的書,進行一下二次學習,從中學習一些更深的知識,希望以後可以從事hadoop的開發甚至可以採用hadoop進行二次開發,下面先對基本的配置運行進行一下最基礎的總結。
一、配置文件
首先要先編輯hadoop啓動的配置文件
1.編輯conf/hadoop-env.sh
設置java路徑,還可以配置python等語言;
2.編輯conf目錄下得core-site.xml hdfs-site.xml mapred-site.xml
a.core-site.xml
指定namenode的ip地址和端口;
投入使用後localhost要是真實地址;
b.hdfs-site.xml
dfs.data.dir是數據存儲的地方,要事先創建好;
dfs.replication控制最多備份多少份;
c.mapred-site.xml
設置他的job管理;
配置ssh,生成祕鑰,使到可以免祕鑰登陸
ssh-keygen -t rsa
cp id_dsa.pub authorized_keys
記得開啓mac的遠程登錄
格式化HDFS
啓動服務
jps查看啓動的所有java進程 包括如下:
停止服務
到這裏hadoop的基本配置就完成了,由於機器數量限制所以只是採用了單臺的僞分佈式模式。以後還會對其他hadoop的知識進行總結。