大數據學習歷程

最近在參加大數據的比賽，所以準備了一些，預賽已經通過了，開始準備初賽，就不能只停留在知識的理解上，需要實戰部分，所以開始認真對待，還是從基礎開始學吧。今天先認識一下Hadoop生態圈。

HADOOP生態圈簡介

Hadoop

Hadoop由Apache基金會開發的分佈式系統基礎架構，是利用集羣對大量數據進行分佈式處理和存儲的軟件框架。用戶可以輕鬆地在Hadoop集羣上開發和運行處理海量數據的應用程序。
Hadoop有高可靠，高擴展，高效性，高容錯等優點。
Hadoop 框架最核心的設計就是HDFS和MapReduce。
HDFS爲海量的數據提供了存儲，MapReduce爲海量的數據提供了計算。
此外，Hadoop還包括了Hive，Hbase，ZooKeeper，Pig，Avro，Sqoop，Flume，Mahout等項目。

HDFS分佈式存儲系統

MapReduce分佈式計算

YARN分佈式資源管理

Spark 基於內存計算

streaming
秒級

storm

毫秒級

Hive/pig 基於mapreduce（離線計算）

大數據分析師經常用的工具，寫SQL語句

Oozie 作業流調度系統

zookeeper分佈式協調服務

Hbase 分佈式數據庫

面向列的數據存儲，

sqoop 數據庫

將數據在關係型數據庫和非關係型數據庫之間進行導入導出

Mahout

數據挖掘算法分析

hadoop實驗

hadoop僞分佈式安裝

Hadoop的運行模式分爲3種：本地運行模式，僞分佈運行模式，完全分佈運行模式。

（1）本地模式（local mode）

這種運行模式在一臺單機上運行，沒有HDFS分佈式文件系統，而是直接讀寫本地操作系統中的文件系統。在本地運行模式（local mode）中不存在守護進程，所有進程都運行在一個JVM上。單機模式適用於開發階段運行MapReduce程序，這也是最少使用的一個模式。

（2）僞分佈模式

這種運行模式是在單臺服務器上模擬Hadoop的完全分佈模式，單機上的分佈式並不是真正的分佈式，而是使用線程模擬的分佈式。在這個模式中，所有守護進程(NameNode，DataNode，ResourceManager，NodeManager，SecondaryNameNode)都在同一臺機器上運行。因爲僞分佈運行模式的Hadoop集羣只有一個節點，所以HDFS中的塊複製將限制爲單個副本，其secondary-master和slave也都將運行於本地主機。此種模式除了並非真正意義的分佈式之外，其程序執行邏輯完全類似於完全分佈式，因此，常用於開發人員測試程序的執行。本次實驗就是在一臺服務器上進行僞分佈運行模式的搭建。

（3）完全分佈模式

這種模式通常被用於生產環境，使用N臺主機組成一個Hadoop集羣，Hadoop守護進程運行在每臺主機之上。這裏會存在Namenode運行的主機，Datanode運行的主機，以及SecondaryNameNode運行的主機。在完全分佈式環境下，主節點和從節點會分開。

首先我們開看hadoop安裝和使用
1.創建hadoop用戶

2. SSH 登錄權限設置

配置完SSH，再次登錄localhost時應該出現如下圖所示：

然後就可以退出ssh，直接在本機操作一下幾個步驟：

3. 安裝java環境
安裝jdk，並將它重命名爲java

切換到apps目錄下，

然後修改系統環境變量文件

sudo vim ~/.bashrc

驗證java環境，出現下面的情況表示正常

僞分佈式安裝配置
安裝java後，此時開始hadoop的配置
首先切換到/data/hadoop1目錄下，將hadoop-2.6.0-cdh5.4.5.tar.gz解壓縮

vim ~/.bashrc

在文件中加入以下兩行

此時表示hadoop安裝正常

下面爲hadoop僞分佈式安裝的簡單原理以及需要配置的文件講解

首先將JAVA_HOME追加到hadoop-env.sh

1.

2.

另外/data/tmp/hadoop/hdfs路徑，需要提前創建，所以我們需要執行：

經過以上操作，HDFS 便安裝好了
接下來，我們還需要配置MapReduce，再次切換到hadoop配置文件目錄,配置過程如下，

其中，mapred-site.xml中加入的內容爲

yarn-site.xml中加入以下內容

以上配置完之後，我們的hadoop僞分佈式部署就完成了，下面我們來跑一個測試

至此，表示hadoop僞分佈式模式已經成功安裝了！

今天我們就先到這兒，下次我們將嘗試完全分佈式的安裝方法。

完全分佈式安裝

hadoop開發插件安裝

Hadoop的開發者爲了降低Hadoop的難度，開發出了Hadoop Eclipse插件，它可以直接嵌入到Hadoop開發環境中，從而實現了開發環境的圖形界面化，降低了編程的難度

Hadoop Eclipse是Hadoop開發環境的插件，在安裝該插件之前需要首先配置Hadoop的相關信息。用戶在創建Hadoop程序時，Eclipse插件會自動導入Hadoop編程接口的jar文件，這樣用戶就可以在Eclipse插件的圖形界面中進行編碼、調試和運行Hadop程序，也能通過Eclipse插件查看程序的實時狀態、錯誤信息以及運行結果。除此之外，用戶還可以通過Eclipse插件對HDFS進行管理和查看。總而言之，Hadoop Eclipse插件不僅安裝簡單，使用起來也很方便。它的功能強大，特別在Hadoop編程方面爲開發者降低了很大的難度，是Hadoop入門和開發的好幫手!

Eclipse插件的安裝方法大體有以下四種：第一種：直接複製法，第二種：使用link文件法，第三種：使用eclipse自帶圖形界面安裝，第四種：使用dropins安裝插件，本實驗Hadoop開發插件安裝使用了eclipse自帶圖形界面安裝。

1.下載所需插件
hadoop-eclipse-plugin-2.6.0.jar
2.將插件拷貝到eclipse/plugins目錄下
3.打開eclipse窗口，依次點擊Window => Open Perspective => Other。

選擇Map/Reduce

Location name，是爲此配置起的一個名字。

DFS Master，是連接HDFS的主機名和端口號。
點擊Finish保存配置。

7.另外還需保證Hadoop中的HDFS相關進程已經啓動。在終端命令行輸入jps查看進程狀態。

jps

若不存在hdfs相關的進程，如Namenode、Datanode、secondarynamenode，則需要先切換到HADOOP_HOME下的sbin目錄，啓動hadoop。

cd /apps/hadoop/sbin
./start-all.sh

8.展開左側項目瀏覽視圖，可以看到HDFS目錄結構。

9.上圖發現HDFS上，沒有存放任何目錄。那下面來創建一個目錄，檢測插件是否可用。

右鍵myhadoop下的文件夾，在彈出的菜單中，點擊Create new directory。
輸入目錄名稱，點擊OK則創建目錄成功。

右鍵文件夾，點擊Refresh，可用刷新HDFS目錄。

到此Hadoop開發插件已經安裝完畢！

Hadoop生態圈以及hadoop僞分佈式安裝

大數據學習歷程

HADOOP生態圈簡介

Hadoop

HDFS分佈式存儲系統

MapReduce分佈式計算

YARN分佈式資源管理

Spark 基於內存計算

storm

Hive/pig 基於mapreduce（離線計算）

Oozie 作業流調度系統

zookeeper分佈式協調服務

Hbase 分佈式數據庫

sqoop 數據庫

Mahout

hadoop實驗

hadoop僞分佈式安裝

hadoop開發插件安裝

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

【5G】華爲5G移動通信培訓

web-UI設計(設計思路篇)

Android學習日記（一）

【H5】用易企秀做H5做完發現頁面播放順序亂套了？？？請不要單選自動播放

在VSphere上搭建nat服務器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結