Hadoop生態圈以及hadoop僞分佈式安裝

最近在參加大數據的比賽,所以準備了一些,預賽已經通過了,開始準備初賽,就不能只停留在知識的理解上,需要實戰部分,所以開始認真對待,還是從基礎開始學吧。今天先認識一下Hadoop生態圈。

HADOOP生態圈簡介

Hadoop

Hadoop由Apache基金會開發的分佈式系統基礎架構,是利用集羣對大量數據進行分佈式處理和存儲的軟件框架。用戶可以輕鬆地在Hadoop集羣上開發和運行處理海量數據的應用程序。
Hadoop有高可靠,高擴展,高效性,高容錯等優點。
Hadoop 框架最核心的設計就是HDFS和MapReduce。
HDFS爲海量的數據提供了存儲,MapReduce爲海量的數據提供了計算。
此外,Hadoop還包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等項目。
在這裏插入圖片描述
在這裏插入圖片描述

HDFS分佈式存儲系統

MapReduce分佈式計算

YARN分佈式資源管理

Spark 基於內存計算

streaming
秒級

storm

毫秒級

Hive/pig 基於mapreduce(離線計算)

大數據分析師經常用的工具,寫SQL語句

Oozie 作業流調度系統

zookeeper分佈式協調服務

Hbase 分佈式數據庫

面向列的數據存儲,

sqoop 數據庫

將數據在關係型數據庫和非關係型數據庫之間進行導入導出

Mahout

數據挖掘算法分析

hadoop實驗

hadoop僞分佈式安裝

Hadoop的運行模式分爲3種:本地運行模式,僞分佈運行模式,完全分佈運行模式。

(1)本地模式(local mode)

這種運行模式在一臺單機上運行,沒有HDFS分佈式文件系統,而是直接讀寫本地操作系統中的文件系統。在本地運行模式(local mode)中不存在守護進程,所有進程都運行在一個JVM上。單機模式適用於開發階段運行MapReduce程序,這也是最少使用的一個模式。

(2)僞分佈模式

這種運行模式是在單臺服務器上模擬Hadoop的完全分佈模式,單機上的分佈式並不是真正的分佈式,而是使用線程模擬的分佈式。在這個模式中,所有守護進程(NameNode,DataNode,ResourceManager,NodeManager,SecondaryNameNode)都在同一臺機器上運行。因爲僞分佈運行模式的Hadoop集羣只有一個節點,所以HDFS中的塊複製將限制爲單個副本,其secondary-master和slave也都將運行於本地主機。此種模式除了並非真正意義的分佈式之外,其程序執行邏輯完全類似於完全分佈式,因此,常用於開發人員測試程序的執行。本次實驗就是在一臺服務器上進行僞分佈運行模式的搭建。

(3)完全分佈模式

這種模式通常被用於生產環境,使用N臺主機組成一個Hadoop集羣,Hadoop守護進程運行在每臺主機之上。這裏會存在Namenode運行的主機,Datanode運行的主機,以及SecondaryNameNode運行的主機。在完全分佈式環境下,主節點和從節點會分開。

首先我們開看hadoop安裝和使用
1.創建hadoop用戶
在這裏插入圖片描述
在這裏插入圖片描述
2. SSH 登錄權限設置
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
配置完SSH,再次登錄localhost時應該出現如下圖所示:
在這裏插入圖片描述
然後就可以退出ssh,直接在本機操作一下幾個步驟:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
3. 安裝java環境
安裝jdk,並將它重命名爲java
在這裏插入圖片描述
切換到apps目錄下,
在這裏插入圖片描述
然後修改系統環境變量文件

sudo vim ~/.bashrc
在這裏插入圖片描述
在這裏插入圖片描述
驗證java環境,出現下面的情況表示正常
在這裏插入圖片描述

  1. 僞分佈式安裝配置
    安裝java後,此時開始hadoop的配置
    首先切換到/data/hadoop1目錄下,將hadoop-2.6.0-cdh5.4.5.tar.gz解壓縮
    在這裏插入圖片描述

vim ~/.bashrc

在文件中加入以下兩行

在這裏插入圖片描述
在這裏插入圖片描述
此時表示hadoop安裝正常

下面爲hadoop僞分佈式安裝的簡單原理以及需要配置的文件講解
在這裏插入圖片描述
首先將JAVA_HOME追加到hadoop-env.sh
在這裏插入圖片描述
1. 在這裏插入圖片描述
在這裏插入圖片描述
2.
在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述
另外/data/tmp/hadoop/hdfs路徑,需要提前創建,所以我們需要執行:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
經過以上操作,HDFS 便安裝好了
接下來,我們還需要配置MapReduce,再次切換到hadoop配置文件目錄,配置過程如下,
在這裏插入圖片描述

其中,mapred-site.xml中加入的內容爲
在這裏插入圖片描述
yarn-site.xml中加入以下內容
在這裏插入圖片描述
以上配置完之後,我們的hadoop僞分佈式部署就完成了,下面我們來跑一個測試
在這裏插入圖片描述

在這裏插入圖片描述

至此,表示hadoop僞分佈式模式已經成功安裝了!

今天我們就先到這兒,下次我們將嘗試完全分佈式的安裝方法。

  1. 完全分佈式安裝

hadoop開發插件安裝

Hadoop的開發者爲了降低Hadoop的難度,開發出了Hadoop Eclipse插件,它可以直接嵌入到Hadoop開發環境中,從而實現了開發環境的圖形界面化,降低了編程的難度

Hadoop Eclipse是Hadoop開發環境的插件,在安裝該插件之前需要首先配置Hadoop的相關信息。用戶在創建Hadoop程序時,Eclipse插件會自動導入Hadoop編程接口的jar文件,這樣用戶就可以在Eclipse插件的圖形界面中進行編碼、調試和運行Hadop程序,也能通過Eclipse插件查看程序的實時狀態、錯誤信息以及運行結果。除此之外,用戶還可以通過Eclipse插件對HDFS進行管理和查看。總而言之,Hadoop Eclipse插件不僅安裝簡單,使用起來也很方便。它的功能強大,特別在Hadoop編程方面爲開發者降低了很大的難度,是Hadoop入門和開發的好幫手!

Eclipse插件的安裝方法大體有以下四種:第一種:直接複製法,第二種:使用link文件法,第三種:使用eclipse自帶圖形界面安裝,第四種:使用dropins安裝插件,本實驗Hadoop開發插件安裝使用了eclipse自帶圖形界面安裝。

1.下載所需插件
hadoop-eclipse-plugin-2.6.0.jar
2.將插件拷貝到eclipse/plugins目錄下
3.打開eclipse窗口,依次點擊Window => Open Perspective => Other。
在這裏插入圖片描述
選擇Map/Reduce
在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

在這裏插入圖片描述

Location name,是爲此配置起的一個名字。

DFS Master,是連接HDFS的主機名和端口號。
點擊Finish保存配置。

7.另外還需保證Hadoop中的HDFS相關進程已經啓動。在終端命令行輸入jps查看進程狀態。

jps

若不存在hdfs相關的進程,如Namenode、Datanode、secondarynamenode,則需要先切換到HADOOP_HOME下的sbin目錄,啓動hadoop。

cd /apps/hadoop/sbin
./start-all.sh

8.展開左側項目瀏覽視圖,可以看到HDFS目錄結構。
在這裏插入圖片描述

9.上圖發現HDFS上,沒有存放任何目錄。那下面來創建一個目錄,檢測插件是否可用。
在這裏插入圖片描述

右鍵myhadoop下的文件夾,在彈出的菜單中,點擊Create new directory。
輸入目錄名稱,點擊OK則創建目錄成功。

右鍵文件夾,點擊Refresh,可用刷新HDFS目錄。

在這裏插入圖片描述

到此Hadoop開發插件已經安裝完畢!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章