大數據學習之路 Hadoop篇(一):超簡單的虛擬機搭建Hadoop+Hive+Spark+HBase環境

這麼長時間沒有寫博客,期間也發生了很多事情,我也一不小心從萌萌的開發變成了萌萌的數據。

我在寫這篇博客的時候還是數據方面的初學者,一來可以回顧總結自己最近學習的內容,督促自己更快更仔細的學習;二來可以爲和我一樣的初學者提供方便,不必花很多精力去找一些資源和技巧或者環境的搭建,而是專注於知識的學習。

工欲善其事,必先利其器。要想學好大數據,得先有大數據方面的環境。我看過網上很多搭建的教程,自己一個一個從頭搭建簡直太複雜太耗時間了,而且一不小心就會前功盡棄,我只想安安靜靜的寫代碼就這麼難嗎?所以我找了一個已經搭建好的虛擬機鏡像,直接用就可以啦,非常簡單,一步登天。

1.虛擬機鏡像下載:

對於初學者來說,要麼是初入職場,對公司的集羣環境不熟悉,自己也怕誤操作刪庫跑路了;要麼還在學校,接觸不到大數據的開發環境,想練手卻巧婦難爲無米之炊,所以學習大數據的第一步是我們需要自己在虛擬機中搭建大數據的環境。

要是自己安裝linux後再搭建環境可是相當麻煩的,所以我們要找別人已經配好的虛擬機。功夫不負有心人,找了很多資源之後終於找到了好用且免費的虛擬機鏡像。

【鏡像下載地址】請點擊這裏訪問百度雲盤下載鏡像(需要安裝百度雲盤客戶端,文件大小是6GB)

【鏡像說明】
此鏡像是使用VirtualBox虛擬機軟件導出來的,裏面包含了Ubuntu系統和全套大數據軟件。遇到需要輸入密碼的地方,密碼都是hadoop。
安裝的系統和軟件如下(所有軟件都安裝在/usr/local/目錄下):
Ubuntu16.04
Hadoop2.7.1
Spark2.1.0
HBase1.1.5
JDK1.8
Scala2.11.8
MySQL
Kafka_2.11-0.10.2.0
Flume1.7.0
sbt
Maven3.3.9
MongoDB3.2.17
Hive2.1.0
Scala IDE(包含Eclipse4.7.0和Maven、Scala、sbt插件)

在此感謝廈門大學數據庫實驗室 林子雨 老師,點擊訪問這個鏡像的主頁

順便說一句,如果忍受不了百度雲的龜速下載,可以搜索一個叫PanDownload的軟件,可以下載百度雲裏的文件,非常好用。

2.安裝虛擬機軟件(VirtualBox或VMWare)

我用的是VMWare,具體下載安裝隨便一搜就有,在此不再贅述。

3.加載虛擬機鏡像

打開VMWare,文件->打開,選擇第一步下載的鏡像,然後等待安裝就好了。

4.打開虛擬機

安裝好之後,直接啓動虛擬機,選擇hadoop賬戶,密碼hadoop(這個虛擬機裏涉及到密碼的地方都是hadoop)。

5.啓動hadoop

打開終端,進入hadoop安裝目錄,啓動hadoop。具體命令是:

cd /usr/local/hadoop
sbin/start-dfs.sh

然後就會看到以下信息:

就說明已經啓動成功啦。可以看出,在localhost啓動了一個namenode和datanode,在0.0.0.0啓動了一個namenode。這是在一個電腦上模擬hadoop集羣環境,有這些就足夠用啦。

6.簡單配置一下

爲了使用方便,可以直接用hadoop命令,我們需要配置環境變量。

編輯.bashrc文件。命令是:

vi ~/.bashrc

添加以下幾句命令:

在文件開始處添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
#在後面alias命令後添加:
alias start_hadoop='/usr/local/hadoop/sbin/start-dfs.sh'
alias stop_hadoop='/usr/local/hadoop/sbin/stop-dfs.sh'

添加好之後,保存退出,執行下面的語句進行應用。

source ~/.bashrc

然後直接執行hadoop就會出現以下信息:

我們可以看一下hdfs文件系統中有什麼,執行

hadoop fs -ls /

可以看到有這 hbase tmp user 三個文件夾(gdx 和 table 是我自己建的)。

上面添加的兩個alias命令是爲了,直接執行 start_hadoop 或者 stop_hadoop 就可以打開/關閉hadoop,不信輸入 stop_hadoop 試一下?

至此就大功告成啦|ू・ω・` )

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章