hadoop集羣搭建

原創

2020-02-25 04:58

計算機集羣是一種計算機系統，它通過一組鬆散集成的計算機軟件和/或硬件連接起來高度緊密地協作完成計算工作。

集羣系統中的單個計算機通常稱爲節點，通常通過局域網連接。

集羣技術的特點：

1.通過多臺計算機完成同一個工作。達到更高的效率

2.兩機或多機內容、工作過程等完全一樣。如果一臺死機，另一臺可以起作用。

1.hadoop的分佈式安裝過程
   1.1 分佈結構   主節點(1個,是hadoop0):NameNode、JobTracker、SecondaryNameNode
                   從節點(2個,是hadoop1、hadoop2):DataNode、TaskTracker
   1.2 各節點重新產生ssh加密文件
           ssh-keygen -t rsa
           cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys
   1.3 編輯各個節點的/etc/hosts，在該文件中含有所有節點的ip與hostname的映射信息
   1.4 兩兩節點之間的SSH免密碼登陸
           ssh-copy-id -i hadoop20
           scp /root/.ssh/authorized_keys   hadoop21:/root/.ssh/
   1.5 把hadoop0的hadoop目錄下的logs和tmp刪除
   1.6 把hadoop0中的jdk、hadoop文件夾複製到hadoop1和hadoop2節點
           scp -r /usr/local/jdk   hadoop1:/usr/local/
   1.7 把hadoop0的/etc/profile複製到hadoop1和hadoop2節點，在目標節點中執行source /etc/profile
   1.8 編輯hadoop0的配置文件slaves，改爲從節點的hostname，分別是hadoop1和hadoop2 (DataNode Tracker)
       編輯hadoop0的配置文件masters，改爲從節點的hostname，分別是hadoop1   (SecondaryNameNode)
   1.9 格式化，在hadoop0節點執行hadoop namenode -format
   1.10 啓動，在hadoop0節點執行start-all.sh
   ****注意：對於配置文件core-site.xml和mapred-site.xml在所有節點中都是相同的內容。

終端查看集羣狀態：

#hadoopdfsadmin -report

2.動態的增加一個hadoop節點
   2.1 配置新節點的環境
   2.2 把新節點的hostname配置到主節點的slaves文件中
   2.3 在新節點，啓動進程
           hadoop-daemon.sh start datanode
           hadoop-daemon.sh start tasktracker
   2.4 在主節點執行腳本 hadoop dfsadmin -refreshNodes

在分佈式文件系統啓動的時候，開始的時候會有安全模式，當分佈式文件系統處於安全模式的情況下，文件系統中的內容不允許修改也不允許刪除，直到安全模式結束。安全模式主要是爲了系統啓動的時候檢查各個DataNode上數據塊的有效性，同時根據策略必要的複製或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中，系統啓動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示，只需要等待一會兒即可。

NameNode在啓動的時候首先進入安全模式，如果datanode丟失的block達到一定的比例（1- dfs.safemode.threshold.pct），則系統會一直處於安全模式狀態即只讀狀態。dfs.safemode.threshold.pct（缺省值0.999f）表示HDFS啓動的時候，如果DataNode上報的block個數達到了元數據記錄的block個數的0.999倍纔可以離開安全模式，否則一直是這種只讀模式。如果設爲1則HDFS永遠是處於SafeMode。

hadoopdfsadmin -safemode enter | leave | get |wait

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

高效調度新篇章：詳解DolphinScheduler 3.2.0生產級集羣搭建

轉載自tuoluzhe8521 導讀：通過簡化複雜的任務依賴關係， DolphinScheduler爲數據工程師提供了強大的工作流程管理和調度能力。在3.2.0版本中，DolphinScheduler帶來了一系列新功能和改進，使其在生產環

2024-05-15 21:22:54

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

從零開始學架構V2-初識架構設計-1

一、架構設計的主要目的爲了解決軟件系統複雜度帶來的問題二、複雜性來源軟件的架構設計是一個非常複雜的過程；基於業務&技術現狀、公司成本、團隊規模、團隊技術能力、近三年業務發展規模預測、技術發展趨勢等條件篩選出合適的技術、編寫多種架構設計

2024-04-25 23:56:25

利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署環境中構建無服務器數據倉庫

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方

2024-04-25 21:18:23

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

告別手動調度，海豚調度器 3.1.x 集羣部署讓你輕鬆管理多機！

轉載自第一片心意 1 前言由於海豚調度器官網的集羣部署文檔寫的較亂，安裝過程中需要跳轉到很多地方進行操作，所以自己總結了一篇可以直接跟着從頭到尾進行操作的文檔，以方便後續的部署、升級、新增節點、減少節點的相關操作。 2. 提前準備 2.

2024-04-23 21:18:20

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

解密數倉的SQL ON ANYWHERE技術

本文分享自華爲雲社區《GaussDB DWS的SQL ON ANYWHERE技術解密》，作者：tooooooooooomy。 1. 前言適用版本：【8.1.1（及以上）】查詢分析是大數據要解決的核心問題之一，雖然大數據相關的處理引

2024-04-03 10:32:41

Apache DolphinScheduler-3.2.0集羣部署教程

集羣部署方案(2 Master + 3 Worker) Apache DolphinScheduler官網：https://dolphinscheduler.apache.org/zh-cn Apache DolphinScheduler

2024-03-11 21:25:56

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

使用Hadoop和Nutch構建音頻爬蟲：實現數據收集與分析

1. 背景介紹隨着音頻內容在互聯網上的廣泛應用，如音樂、播客、語音識別等，越來越多的企業和研究機構希望能夠獲取和分析這些數據，以發現有價值的信息和洞察。而傳統的手動採集方式效率低下，無法滿足大規模數據處理的需求，因此需要利用自動化爬

2024-02-22 01:13:43

24小時熱門文章

最新文章

最新評論文章