大數據學習筆記2--hdfs工作原理及源碼分析

原創

程序小小望

2018-08-25 09:59

windows下配置hadoop

hadoop 安裝包解壓，路徑不要有特殊字符
lib和bin直接解壓出來的不可用，需要自己重新編譯
配置環境變量：HADOOP_HOME,path中添加：bin目錄

namenode

整個文件系統的管理節點。它維護着整個文件系統的文件目錄樹，文件/目錄的元信息和每個文件對應的數據塊列表。接收用戶的操作請求。

響應客戶端的請求，上傳文件：

client申請上傳文件，namenode查看元數據信息，查看客戶端申請的路徑是否已存在
namenode返回可用的datanode
client直接訪問第一個datanode，上傳第一個block，datanode向namenode報告block信息，第一個block建立一個pipeline，向其他datanode拷貝block副本，鏈式向下傳遞副本，達到配置的副本數。

namenode寫元數據

內存中：meta.data
磁盤：fsimage、edits log
先修改edits
同步到meta.data

fsimage結構：
文件名，副本數，blockid，block存儲的機器
NameNode(FileName, replicas, block-ids,id2host…)
/test/a.log, 3 ,{blk_1,blk_2},
[{blk_1:[h0,h1,h3]},{blk_2:[h0,h2,h4]}]

secondary namenode 同步修改fsimage

通知namendoe切換edits，不再使用之前的edits文件
secondary namenode從namenode下載edits和fsimage文件
secondary namenode將他們加載到內存，進行合併，產生新的fsimage.chkpoint
將新的fsimage文件回傳到namenode
namenode用新的fsimage替換舊的fsimage

checkpoint

fs.checkpoint.period 指定兩次checkpoint的最大時間間隔，默認3600秒。
fs.checkpoint.size
規定edits文件的最大值，一旦超過這個值則強制checkpoint，不管是否到達最大時間間隔。默認大小是64M。

節點間通信：

遠程方法調用rpc
大數據量的傳輸

FileSystem獲取過程

FileSystem.get(new URI(HDFS_PATH), new Configuration());//獲取文件對象
CACHE.get(uri, conf)//從緩存Map中獲取
fs = createFileSystem(uri, conf);//創建新的fs
clazz = getFileSystemClass(uri.getScheme(), conf);//獲取fs類
ReflectionUtils.newInstance(clazz, conf)//實例化fs
fs.initialize(uri, conf);//初始化fs參數
dfs = new DFSClient(uri, conf, statistics)//獲取dfs客戶端
proxyInfo =
NameNodeProxies.createProxyWithLossyRetryHandler(conf,nameNodeUri,
ClientProtocol.class, numResponseToDrop)//通過RPC獲取和NN通信的客戶端代理對象
this.namenode = proxyInfo.getProxy()//獲得namenode代理對象

fs持有DistributedFileSystem dfs,dfs中持有DFSClinet dfsc對象，dfsc中持有namenode代理對象

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

智慧家庭場景的推薦系統的發展歷程和方向 | InfoQ《公開課》

直播概要：隨着計算機的蓬勃發展，互聯網進入大數據和人工智能時代，爲了解決信息過載和長尾商品，推薦系統成爲唯一選擇，而面對不同的業務場景，爲了解決業務痛點，會根據不同的場景特點尋找不同的方法和手段來解決推薦中實際遇到的問題。在智慧家庭領域，

InfoQ 中文站

2021-12-21 10:54:01

開源80萬行代碼，微衆銀行如何在小團隊規模下煉出一套一站式大數據平臺 | 卓越技術團隊訪談錄

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragr

2021-12-21 10:53:51

RocketMQ Streams：將輕量級實時計算引擎融合進消息系統

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-12-07 10:29:04

數據也需要滴血認親？

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"背景","attrs

2021-12-05 12:33:58

爲什麼Netflix“永不宕機”？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 15:48:52

RocketMQ 在金融企業技術中臺的落地實踐

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-25 10:53:56

數據讓您與衆不同

作爲數據分析領域的領導者，Google Cloud 一直致力於解決用戶最關注的問題，幫助用戶在數字化轉型的過程中更加有效的利用數據，最大化數據所帶來的價值，進而驅動業務的發展，包括打破數據孤島, 高效的實時和預測分析以及最大化數據洞察的應用

2021-11-23 11:18:54

開源雲原生數據編排軟件開發商Alluxio宣佈完成5000萬美元C輪融資

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:08:53

2021 GitHub年度報告：僅有 11% 的開發者想重返辦公室辦公；JavaScript依然最受歡迎

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-11-18 22:03:52

Databricks與Snowflake創始人開撕：“未來十年數據倉庫要麼不存在要麼大變樣”

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockq

2021-11-18 18:03:58

通過優化S3讀取來提高效率和減少運行時間

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"概述"}]},{"t

Bhalchandra Pandit

2021-11-11 10:23:52

基礎軟件創業 8 年，星環科技如何精準“踩點”？ | C位面對面

在大數據領域創業 12 年，眼見計算引擎經歷了數輪迭代，雲原生興起砸中了一批做容器的，數據雲因爲 Snowflake 上市走入大衆認知，回回都能在風口到來前兩三年做好佈局，這是一種什麼判斷和體驗？本期 C 位面對面，我們邀請到了星環科技創

InfoQ 中文站

2021-11-08 14:38:55

DataOps指南：數據管理新時代來了？

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null

2021-11-08 10:58:53

谷歌自研芯片Tensor正式亮相：5nm，8核CPU，支持手機運行AI模型

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

2021-10-20 15:53:52

從入職到放棄再到改革成功：我是如何從0到1建立數據團隊的？

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"typ

Erik Bernhardsson

2021-10-09 08:18:53

24小時熱門文章

最新文章

最新評論文章