本章介紹分佈式架構的底層技術。主要說明面試過程中可能被問到的技術點。
分佈式文件存儲
目前流行的分佈式文件存儲系統有以下幾個
通常會把 root 或者需要的用戶添加到 supergroup組,但Linux下默認是沒有supergroup組。 # Linux下默認是沒有supergroup組的 # hadoop:x:994:hdfs,mapred,yarn cat
1. 環境準備 大數據集羣一套,沒有的可以自己本地搭建一套(參考地址:https://www.jianshu.com/p/2c2ae6490fa0) 本地安裝JDK 本地安裝IDEA或者Eclipse 2. 創建Maven項目 在IDE
僞分佈式模式 Hadoop can also be run on a single-node in a pseudo-distributed mode where each Hadoop daemon runs in a se
Author:Pirate Leo myBlog: http://blog.csdn.net/pirateleo/ myEmail: [email protected] 轉載請註明出處,謝謝。 文中可能涉及到的API:
HDFS的特點 分佈式文件系統。 保存多個副本,提供容錯機制,副本丟失或宕機的自動恢復能力。 適合大數據處理,文件分塊存儲,默認是128M;文件與Black的對應關係存儲在NameNode所在節點的內存中,方便文件的尋址和訪問。
文章目錄前言HDFS NameNode端針對Rolling Upgrade的調整HDFS DataNode端針對Rolling Upgrade的調整引用 前言 我們知道HDFS Rolling Upgrade功能在幾年前比較早的
HDFS 安全模式 文章目錄HDFS 安全模式安全模式概述安全模式配置安全模式命令 安全模式概述 安全模式是 HDFS 所處的一種特殊狀態,在這種狀態下,文件系統只接受讀數據請求,而不接受刪除、修改等變更請求,是一種保護機制,用於
1.HDFS元數據管理機制 計算機中存儲數據兩種:內存或者是磁盤 元數據存儲磁盤:存儲磁盤無法面對客戶端對元數據信息的任意的快速低延遲的響應,但是安全性高 元數據存儲內存:元數據存放內存,可以高效的查詢以及快速響應客戶端的查詢請求
1.HDFS主要的組件: 2.HDFS讀數據流程 1. 客戶端通過Distributed FileSystem向NameNode請求下載文件,NameNode通過查詢元數據, 找到文件塊所在的DataNode地址。 2. 挑選一臺Da
文章目錄HBase物理架構:HMaster:HMaster的主要作用:--負責table和region管理工作HRegionServer:1.HLog ----簡直和NN的editlog還有mysql的log文件一毛一樣2.HRe
前言 Hive:2.3.0 由於實際生產環境中,Hive自帶的內建函數無法覆蓋所有的應用場景,所以時常需要進行自定義函數User-Defined Function(UDF),以滿足實際生產需求。 本文主要演示如何實現自
前言 OS:CentOS 7 hadoop:2.7.7 hive:2.3.0 Hive中配置snappy壓縮,可以分別在Mapper輸出階段和Reducer輸出階段使用壓縮算法。也可以將壓縮後數據文件加載到表中用於
在windows下使用編譯器寫代碼時,要注意jdk版本和linux下的jdk版本保持一致,避免版本不同造成在linux環境下不能運行的情況。這裏使用的是mapreduce框架來做數據的分析。 如果創建的是Maven項目,需要在po
1.1 HDFS產出背景及定義 1.2 HDFS優缺點 1.3 HDFS組成架構 1.4 HDFS文件塊大小(面試重點)
早期的hadoop版本,NN是HDFS集羣的單點故障點,每一個集羣只有一個NN,如果這個機器或進程不可用,整個集羣就無法使用。爲了解決這個問題,出現了一堆針對HDFS HA的解決方案(如:Linux HA, VMware FT, s