hadoop學習筆記之配置、三種模式配置及區別

原創

2019-03-04 00:20

目錄

JDK、Hadoop安裝、配置

本地模式（standalone operation）配置

僞分佈式模式配置

三種模式區別

僞分佈式模式

完全分佈式模式

JDK、Hadoop安裝、配置

先去官網http://hadoop.apache.org/下載hadoop，我下的是hadoop2.5.2.tar.gz
去jdk官網下載jdk1.7 linux.tar.gz 或者百度網盤https://pan.baidu.com/s/1qWoS4ws
下載filezilla https://filezilla-project.org/download.php ，登錄的時候端口號爲22，主機位ip地址，將下載的hadoop和jdk複製到/opt/softwares裏面。
打開虛擬機，打開Xshell5，輸入su定位到根目錄，rpm -qa|grep java 找到含java的文件，然後輸入rpm -e --nodeps （……上面過濾的目錄），強制刪除這些文件。我的是這樣的：
cd到/opt/softwares，然後給此目錄下所有文件用戶權限加上可執行(x)，
解壓：
配置環境變量：新建一個xshell窗口，然後編輯/etc/profile

按G到達結尾，把剛纔的安裝的目錄

/opt/modules/jdk1.7.0_79編輯進/etc/profile

然後source一下生效，

退出後重新連接輸入java -version驗證是否配置成功：

hadoop配置操作類似：

用notepad++連接虛擬機，如果第一次用可能要安裝NppFTP插件，否則沒有，配置文件就在圖片灰色的hadoop下，然後

在hadoop下找到hadoop-env.sh用notepad++打開，輸入echo ${JAVA_HOME} ，將得到的路徑粘貼到下圖位置：

本地模式（standalone operation）配置

定義：MapReduce程序運行在本地，啓動JVM。

方法：

在hadoop-2.5.2目錄下創建Input目錄；

在input目錄下創建某某.input；

在hadoop-2.5.2目錄調用bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.2.jar 指令 input output ；

cat output/part-r-00000 查看結果集。

實例1

複製.xml文件到input中：

查詢input裏面含dfs加上a-z或.出現至少一次的字串，並把結果集輸出到output裏面：

如果是_SUCCESS則成功，_SUCCESS什麼用都沒有，只是起標識作用。這裏part-r-00000就是結果集。

實例2

統計每個單詞數量

僞分佈式模式配置

在etc/hadoop下找到core-site.xml，用notepad++打開，

，

在etc/hadoop找到hdfs-site.xml，用notepad++打開

本地運行

格式化：

啓動：

啓動成功：

hdfs web：在linux系統網頁裏輸入主機名:50070，我的是：

修改主機名看這個：https://jingyan.baidu.com/article/574c52192a1d8d6c8d9dc1ce.html

創建目錄：

從本地上傳文件：

查看文件內容：也可以通過web查看，utilities---browse the file system

統計單詞數量：

查看結果：，web上也有

YARN上運行

/etc/hadoop下找到 yarn-env.sh配置JAVA_HOME（通過echo $JAVA_HOME）：

yarn-site.xml：

slaves：改成自己的主機名：

不用格式化，啓動resourcemanager和nodemanager：

默認端口號8088，web打開方式：hadoop-mcq（主機名）:8088

mapred-env.sh配置JAVA_HOME：

找到mapred-site.xml.template並重命名爲mapred-site.xml，然後配置

先把以前的輸出刪掉：

運行：

三種模式區別

單機模式

-默認模式。

-不對配置文件進行修改。

-使用本地文件系統，而不是分佈式文件系統。

-Hadoop不會啓動NameNode、DataNode、JobTracker、TaskTracker等守護進程，Map()和Reduce()任務作爲同一個進程的不同部分來執行的。

-用於對MapReduce程序的邏輯進行調試，確保程序的正確。

僞分佈式模式

-在一臺主機模擬多主機。

-Hadoop啓動NameNode、DataNode、JobTracker、TaskTracker這些守護進程都在同一臺機器上運行，是相互獨立的Java進程。

-在這種模式下，Hadoop使用的是分佈式文件系統，各個作業也是由JobTraker服務，來管理的獨立進程。在單機模式之上增加了代碼調試功能，允許檢查內存使用情況，HDFS輸入輸出，以及其他的守護進程交互。類似於完全分佈式模式，因此，這種模式常用來開發測試Hadoop程序的執行是否正確。

-修改3個配置文件：core-site.xml（Hadoop集羣的特性，作用於全部進程及客戶端）、hdfs-site.xml（配置HDFS集羣的工作屬性）、mapred-site.xml（配置MapReduce集羣的屬性）

-格式化文件系統

完全分佈式模式

-Hadoop的守護進程運行在由多臺主機搭建的集羣上，是真正的生產環境。

-在所有的主機上安裝JDK和Hadoop，組成相互連通的網絡。

-在主機間設置SSH免密碼登錄，把各從節點生成的公鑰添加到主節點的信任列表。

-修改3個配置文件：core-site.xml、hdfs-site.xml、mapred-site.xml，指定NameNode和JobTraker的位置和端口，設置文件的副本等參數

-格式化文件系統

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

芯片產業管理和營銷指北（3）—— 贏得客戶

注意：本文是依據俞志宏老師的《我在硅谷管芯片：芯片產品線經理生存指南》一書閱讀後歸納總結得到。可以試做此書的讀後感，對芯片產業感興趣的同僚強烈推薦此書爲什麼要見客戶和客戶面對面主要是獲取與客戶相關的各類信息，包含但不限於：市

2024-06-09 14:34:09

【stars-one】星念輕小說下載器

原文: 【stars-one】星念輕小說下載器-Stars-One的雜貨小窩一款將在線輕小說保存到本地的下載工具軟件介紹小說單卷下載小說全卷下載(需VIP) 多線程解析和下載下載導出爲epub文件自動更新軟件使用前需要進行

2024-06-09 14:22:28

shell編程相關的

shell腳本獲取腳本所在目錄執行腳本的父目錄不一定是當前的工作目錄。 url=$(dirname $(readlink -f $0))

2024-06-09 14:16:47

kvm鏈接克隆虛擬機遷移到openstack機器的實驗

總結如果是完整克隆的那種虛擬機，是可以直接在openstack使用的，如果鏡像格式沒問題的話。因爲kvm虛擬機大部分都是鏈接克隆出來的鏡像，不可用直接複製使用，所以需要創建新的鏡像文件創建空盤：qemu-img creat

2024-06-09 14:16:47

【Python】DQN處理CartPole-v1

DQN是強化學習中的一種方法，是對Q-Learning的擴展。通過引入深度神經網絡、經驗回放和目標網絡等技術，使得Q-Learning算法能夠在高維、連續的狀態空間中應用，解決了傳統Q-Learning方法在這些場景下的侷限性。 Q-Le

2024-06-09 14:14:07

P1355 神祕大三角（凸包）

P1355 神祕大三角 - 洛谷 | 計算機科學教育新生態 (luogu.com.cn) 隊友推薦的，算是入門凸包，就是用叉積判斷一下點是否相對每條邊都在凸包的邊的左側。 1 #include <bits/stdc++.h> 2

2024-06-09 14:13:17

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

這一章把直線連接改爲折線連接，沿用原來連接點的關係信息。關於折線的計算，使用的是開源的 AStar 算法進行路徑規劃，啓發方式爲曼哈頓距離，且不允許對角線移動。請大家動動小手，給我一個免費的 Star 吧~ 大家如果發現了 Bug，歡

2024-06-09 14:10:57

生產計劃範圍的擴展 - 工單的拆分與合併

背景　　在過往與不少合作伙伴們，就生產計劃項目方案的討論中，經常提及這樣的一種情況： “我們在編制生產計劃時，有些數量較大的訂單，需要拆分成多個子訂單，這樣才能利用多個資源並行加工，以縮短生產週期，提高資源利用率” - 我們稱爲【工單拆分

2024-06-09 14:09:57

APS系統設計經驗分享(時間推導II - 2023.09)

　　在前一篇關於APS系統設計分享文章(《APS系統設計經驗分享(時間推導 - 2023.03)》)中，我們提到將會分享使用OptaPlanner作爲規劃引擎開發APS系統過程中，遇到的一些時間相關的設計建議與異常情況分析。後來一直忙於項目

2024-06-09 14:09:57

排程過程中任務鎖定的外延與內涵

在生產排程過程中，除了可以藉助強大的算法，與優質的規劃模型對待排任務進行排產優化外，還會遇到一些需要人爲鎖定部分任務的情況。無論是APS系統開發人員，還是排產作業人員，在常見的認識中，對於“鎖定”概念的理解，第一反應就是把任務固定到某個資源

2024-06-09 14:09:57

排程系統中關於任務優先級的需求延伸與設計構思

無論是面向銷售訂單的MPS，還是基於多工序制約關係的APS，還是具體車間生產中針對單一工序的任務作業調度優化，都存在基於被排程對象(例如銷售訂單、生產工單、工序任務)的優先級進行優化的需求場景。當我們僅在宏觀、較高層次的角度考慮，任務優先級

2024-06-09 14:09:57

從零手寫實現 nginx-11-文件處理邏輯與 range 範圍查詢合併

前言大家好，我是老馬。很高興遇到你。我們爲 java 開發者實現了 java 版本的 nginx https://github.com/houbb/nginx4j 如果你想知道 servlet 如何處理的，可以參考我的另一個項目：

2024-06-09 14:02:36

nginx快速分析日誌並找出攻擊IP

第一步：分析NGINX日誌分析日誌主要目的是尋找那些異常活躍的IP地址，通過以下命令可以快速找出。 cat access.log | awk '{print$1}' |sort|uniq -c|sort -rn|head -10 命

2024-06-09 13:59:16

Vue CLI 4與項目構建實戰指南

title: Vue CLI 4與項目構建實戰指南 date: 2024/6/9 updated: 2024/6/9 excerpt: 這篇文章介紹瞭如何使用Vue CLI優化項目構建配置，提高開發效率，涉及配置管理、項目部署策略、插件系

2024-06-09 13:40:15

Vue第三方庫與插件實戰手冊

title: Vue第三方庫與插件實戰手冊 date: 2024/6/8 updated: 2024/6/8 excerpt: 這篇文章介紹瞭如何在Vue框架中實現數據的高效驗證與處理，以及如何集成ECharts、D3.js、Chart.

2024-06-09 13:40:15

24小時熱門文章

最新文章

最新評論文章