分佈式文件系統原理

本地文件系統如ext3，reiserfs等（這裏不討論基於內存的文件系統），它們管理本地的磁盤存儲資源、提供文件到存儲位置的映射，並抽象出一套文件訪問接口供用戶使用。但隨着互聯網企業的高速發展，這些企業對數據存儲的要求越來越高，而且模式各異，如淘寶主站的大量商品圖片，其特點是文件較小，但數量巨大；而類似於youtube，優酷這樣的視頻服務網站，其後臺存儲着大量的視頻文件，尺寸大多在數十兆到數吉字節不等。這些應用場景都是傳統文件系統不能解決的。分佈式文件系統將數據存儲在物理上分散的多個存儲節點上，對這些節點的資源進行統一的管理與分配，並向用戶提供文件系統訪問接口，其主要解決了本地文件系統在文件大小、文件數量、打開文件數等的限制問題。

分佈式存儲系統典型架構

目前比較主流的一種分佈式文件系統架構，如下圖所示，通常包括主控服務器（或稱元數據服務器、名字服務器等，通常會配置備用主控服務器以便在故障時接管服務，也可以兩個都爲主的模式），多個數據服務器（或稱存儲服務器，存儲節點等），以及多個客戶端，客戶端可以是各種應用服務器，也可以是終端用戶。

分佈式文件系統的數據存儲解決方案，歸根結底是將將大問題劃分爲小問題。大量的文件，均勻分佈到多個數據服務器上後，每個數據服務器存儲的文件數量就少了，另外通過使用大文件存儲多個小文件的方式，總能把單個數據服務器上存儲的文件數降到單機能解決的規模；對於很大的文件，將大文件劃分成多個相對較小的片段，存儲在多個數據服務器上（目前，很多本地文件系統對超大文件的支持已經不存在問題了，如ext3文件系統使用4k塊時，文件最大能到4T，ext4則能支持更大的文件，只是受限於磁盤的存儲空間）。

理論上，分佈式文件系統可以只有客戶端和多個數據服務器組成，客戶端根據文件名決定將文件存儲到哪個數據服務器，但一旦有數據服務器失效時，問題就變得複雜，客戶端並不知道數據服務器宕機的消息，仍然連接它進行數據存取，導致整個系統的可靠性極大的降低，而且完全有客戶端決定數據分配時非常不靈活的，其不能根據文件特性制定不同的分佈策略。

於是，我們迫切的需要能知道各個數據服務器的服務狀態，數據服務器的狀態管理可分爲分散式和集中式兩種方式，前者是讓多個數據服務器相互管理，如每個服務器向其他所有的服務器發送心跳信息，但這種方式開銷較大，控制不好容易影響到正常的數據服務，而且工程實現較爲複雜；後者是指通過一個獨立的服務器（如上圖中的主控服務器）來管理數據服務器，每個服務器向其彙報服務狀態來達到集中管理的目的，這種方式簡單易實現，目前很多分佈式文件系統都採用這種方式如GFS、TFS(http://code.taobao.org/p/tfs/wiki/index/ )、MooseFS (http://www.moosefs.org/ )等。主控服務器在負載較大時會出現單點，較多的解決方案是配置備用服務器，以便在故障時接管服務，如果需要，主備之間需要進行數據的同步。

問題及解決方法

本文主要討論基於上圖架構的分佈式文件系統的相關原理，工程實現時需要解決的問題和解決問題的基本方法，分佈式文件系統涉及的主要問題及解決方法如下圖所示。爲方便描述以下主控服務器簡稱Master，數據服務器簡稱DS（DataServer）。

主控服務器

l 命名空間的維護

Master負責維護整個文件系統的命名空間，並暴露給用戶使用，命名空間的結構主要有典型目錄樹結構如MooseFS等，扁平化結構如淘寶TFS（目前已提供目錄樹結構支持），圖結構（主要面向終端用戶，方便用戶根據文件關聯性組織文件，只在論文中看到過）。

爲了維護名字空間，需要存儲一些輔助的元數據如文件（塊）到數據服務器的映射關係，文件之間的關係等，爲了提升效率，很多文件系統採取將元數據全部內存化（元數據通常較小）的方式如GFS, TFS；有些系統借則助數據庫來存儲元數據如DBFS，還有些系統則採用本地文件來存儲元數據如MooseFS。

一種簡單的實現目錄樹結構的方式是，在Master上存儲與客戶端完全一樣的命名空間，對應的文件內容爲該文件的元數據，並通過在Master上採用ReiserFS來進行小文件存儲優化，對於大文件的存儲（文件數量不會成爲Master的瓶頸），這種方式簡單易實現。曾經參與的DNFS系統的開發就是使用這種方式，DNFS主要用於存儲視頻文件，視頻數量在百萬級別，Master採用這種方式文件數量上不會成爲瓶頸。

l 數據服務器管理

除了維護文件系統的命名空間，Master還需要集中管理數據DS，可通過輪詢DS或由DS報告心跳的方式實現。在接收到客戶端寫請求時，Master需要根據各個DS的負載等信息選擇一組（根據系統配置的副本數）DS爲其服務；當Master發現有DS宕機時，需要對一些副本數不足的文件（塊）執行復制計劃；當有新的DS加入集羣或是某個DS上負載過高，Master也可根據需要執行一些副本遷移計劃。

如果Master的元數據存儲是非持久化的，則在DS啓動時還需要把自己的文件（塊）信息彙報給Master。在分配DS時，基本的分配方法有隨機選取，RR輪轉、低負載優先等，還可以將服務器的部署作爲參考（如HDFS分配的策略），也可以根據客戶端的信息，將分配的DS按照與客戶端的遠近排序，使得客戶端優先選取離自己近的DS進行數據存取.

l 服務調度

Master最終的目的還是要服務好客戶端的請求，除了一些週期性線程任務外，Master需要服務來自客戶端和DS的請求，通常的服務模型包括單線程、每請求一線程、線程池（通常配合任務隊列）。單線程模型下，Master只能順序的服務請求，該方式效率低，不能充分利用好系統資源；每請求一線程的方式雖能併發的處理請求，但由於系統資源的限制，導致創建線程數存在限制，從而限制同時服務的請求數量，另外，線程太多，線程間的調度效率也是個大問題；線程池的方式目前使用較多，通常由單獨的線程接受請求，並將其加入到任務隊列中，而線程池中的線程則從任務隊列中不斷的取出任務進行處理。

l 主備（主）容災

Master在整個分佈式文件系統中的作用非常重要，其維護文件（塊）到DS的映射、管理所有的DS狀態並在某些條件觸發時執行負載均衡計劃等。爲了避免Master的單點問題，通常會爲其配置備用服務器，以保證在主控服務器節點失效時接管其工作。通常的實現方式是通過HA、UCARP等軟件爲主備服務器提供一個虛擬IP提供服務，當備用服務器檢測到主宕機時，會接管主的資源及服務。

如果Master需要持久化一些數據，則需要將數據同步到備用Master，對於元數據內存化的情況，爲了加速元數據的構建，有時也需將主上的操作同步到備Master。處理方式可分爲同步和異步兩種。同步方式將每次請求同步轉發至備Master，這樣理論上主備時刻保持一致的狀態，但這種方式會增加客戶端的響應延遲（在客戶端對響應延遲要求不高時可使用這種方式），當備Master宕機時，可採取不做任何處理，等備Master起來後再同步數據，或是暫時停止寫服務，管理員介入啓動備Master再正常服務（需業務能容忍）；異步方式則是先暫存客戶端的請求信息（如追加至操作日誌），後臺線程重放日誌到備Master，這種方式會使得主備的數據存在不一致的情況，具體策略需針對需求制定。

數據服務器

l 數據本地存儲

數據服務器負責文件數據在本地的持久化存儲，最簡單的方式是將客戶每個文件數據分配到一個單獨的DS上作爲一個本地文件存儲，但這種方式並不能很好的利用分佈式文件系統的特性，很多文件系統使用固定大小的塊來存儲數據如GFS, TFS, HDFS，典型的塊大小爲64M。

對於小文件的存儲，可以將多個文件的數據存儲在一個塊中，併爲塊內的文件建立索引，這樣可以極大的提高存儲空間利用率。Facebook用於存儲照片的HayStack系統的本地存儲方式爲，將多個圖片對象存儲在一個大文件中，併爲每個文件的存儲位置建立索引，其支持文件的創建和刪除，不支持更新（通過刪除和創建完成），新創建的圖片追加到大文件的末尾並更新索引，文件刪除時，簡單的設置文件頭的刪除標記，系統在空閒時會對大文件進行compact把設置刪除標記且超過一定時限的文件存儲空間回收（延遲刪除策略）。淘寶的TFS系統採用了類似的方式，對小文件的存儲進行了優化，TFS使用擴展塊的方式支持文件的更新。對小文件的存儲也可直接藉助一些開源的KV存儲解決方案，如Tokyo Cabinet（HDB, FDB, BDB, TDB）、Redis等。

對於大文件的存儲，則可將文件存儲到多個塊上，多個塊所在的DS可以並行服務，這種需求通常不需要對本地存儲做太多優化。

l 狀態維護

DS除了簡單的存儲數據外，還需要維護一些狀態，首先它需要將自己的狀態以心跳包的方式週期性的報告給Master，使得Master知道自己是否正常工作，通常心跳包中還會包含DS當前的負載狀況（CPU、內存、磁盤IO、磁盤存儲空間、網絡IO等、進程資源，視具體需求而定），這些信息可以幫助Master更好的制定負載均衡策略。

很多分佈式文件系統如HDFS在外圍提供一套監控系統，可以實時的獲取DS或Master的負載狀況，管理員可根據監控信息進行故障預防。

l 副本管理

爲了保證數據的安全性，分佈式文件系統中的文件會存儲多個副本到DS上，寫多個副本的方式，主要分爲3種。最簡單的方式是客戶端分別向多個DS寫同一份數據，如DNFS採用這種方式；第2種方式是客戶端向主DS寫數據，主DS向其他DS轉發數據，如TFS採用這種方式；第三種方式採用流水複製的方式，client向某個DS寫數據，該DS向副本鏈中下一個DS轉發數據，依次類推，如HDFS、GFS採取這種方式。

當有節點宕機或節點間負載極不均勻的情況下，Master會制定一些副本複製或遷移計劃，而DS實際執行這些計劃，將副本轉發或遷移至其他的DS。DS也可提供管理工具，在需要的情況下由管理員手動的執行一些複製或遷移計劃。

l 服務模型

參考主控服務器::服務模型一節

客戶端

l 接口

用戶最終通過文件系統提供的接口來存取數據，linux環境下，最好莫過於能提供POSIX接口的支持，這樣很多應用（各種語言皆可，最終都是系統調用）能不加修改的將本地文件存儲替換爲分佈式文件存儲。

要想文件系統支持POSIX接口，一種方式時按照VFS接口規範實現文件系統，這種方式需要文件系統開發者對內核有一定的瞭解；另一種方式是藉助FUSE(http://fuse.sourceforge.net)軟件，在用戶態實現文件系統並能支持POSIX接口，但是用該軟件包開發的文件系統會有額外的用戶態內核態的切換、數據拷貝過程，從而導致其效率不高。很多文件系統的開發藉助了fuse，參考http://sourceforge.net/apps/mediawiki/fuse/index.php?title=FileSystems。

如果不能支持POSIX接口，則爲了支持不同語言的開發者，需要提供多種語言的客戶端支持，如常用的C/C++、java、php、python客戶端。使用客戶端的方式較難處理的一種情況時，當客戶端升級時，使用客戶端接口的應用要使用新的功能，也需要進行升級，當應用較多時，升級過程非常麻煩。目前一種趨勢是提供Restful接口的支持，使用http協議的方式給應用（用戶）訪問文件資源，這樣就避免功能升級帶來的問題。

另外，在客戶端接口的支持上，也需根據系統需求權衡，比如write接口，在分佈式實現上較麻煩，很難解決數據一致性的問題，應該考慮能否只支持create（update通過delete和create組合實現），或折中支持append，以降低系統的複雜性。

l 緩存

分佈式文件系統的文件存取，要求客戶端先連接Master獲取一些用於文件訪問的元信息，這一過程一方面加重了Master的負擔，一方面增加了客戶端的請求的響應延遲。爲了加速該過程，同時減小Master的負擔，可將元信息進行緩存，數據可根據業務特性緩存在本地內存或磁盤，也可緩存在遠端的cache系統上如淘寶的TFS可利用tair作爲緩存（減小Master負擔、降低客戶端資源佔用）。

維護緩存需考慮如何解決一致性問題及緩存替換算法，一致性的維護可由客戶端也可由服務器完成，一種方式是客戶端週期性的使cache失效或檢查cache有效性（需業務上能容忍），或由服務器在元數據更新後通知客戶端使cache失效（需維護客戶端狀態）。使用得較多的替換算法如LRU、隨機替換等。

l 其他

客戶端還可以根據需要支持一些擴展特性，如將數據進行加密保證數據的安全性、將數據進行壓縮後存儲降低存儲空間使用，或是在接口中封裝一些訪問統計行爲，以支持系統對應用的行爲進行監控和統計。

總結

本文主要從典型分佈式文件系統架構出發，討論了分佈式文件系統的基本原理，工程實現時需要解決的問題、以及解決問題的基本方法，真正在系統工程實現時，要考慮的問題會更多。如有問題，歡迎拍磚。

HDFS 架構解析

文以 Hadoop 提供的分佈式文件系統（HDFS）爲例來進一步展開解析分佈式存儲服務架構設計的要點。

架構目標

任何一種軟件框架或服務都是爲了解決特定問題而產生的。還記得我們在《分佈式存儲 - 概述》一文中描述的幾個關注方面麼？分佈式文件系統屬於分佈式存儲中的一種面向文件的數據模型，它需要解決單機文件系統面臨的容量擴展和容錯問題。

所以 HDFS 的架構設計目標就呼之欲出了：

面向超大文件或大量的文件數據集
自動檢測局部的硬件錯誤並快速恢復

基於此目標，考慮應用場景出於簡化設計和實現的目的，HDFS 假設了一種 write-once-read-many 的文件訪問模型。這種一次寫入並被大量讀出的模型在現實中確實適應很多業務場景，架構設計的此類假設是合理的。正因爲此類假設的存在，也限定了它的應用場景。

架構總攬

下面是一張來自官方文檔的架構圖：

從圖中可見 HDFS 的架構包括三個部分，每個部分有各自清晰的職責劃分。

NameNode
DataNode
Client

從圖中可見，HDFS 採用的是中心總控式架構，NameNode 就是集羣的中心節點。

NameNode

NameNode 的主要職責是管理整個文件系統的元信息（Metadata），元信息主要包括：

File system namesapce
HDFS 類似單機文件系統以目錄樹的形式組織文件，稱爲 file system namespace
Replication factor
文件副本數，針對每個文件設置
Mapping of blocks to DataNodes
文件塊到數據節點的映射關係

在上面架構圖中，指向 NameNode 的 Metadata ops 主要就是針對文件的創建、刪除、讀取和設置文件的副本數等操作，所以所有的文件操作都繞不過 NameNode。除此之外 NameNode 還負責管理 DataNode，如新的 DataNode 加入集羣，舊的 DataNode 退出集羣，在 DataNode 之間負載均衡文件數據塊的分佈等等。更多關於 NameNode 的設計實現分析，後面會單獨成文詳解。

DataNode

DataNode 的職責如下：

存儲文件塊（block）
服務響應 Client 的文件讀寫請求
執行文件塊的創建、刪除和複製

從架構圖上看到有個 Block ops 的操作箭頭從 NameNode 指向 DataNode，會讓人誤以爲 NameNode 會主動向 DataNode 發出指令調用。實際上 NameNode 從不調用 DataNode，僅僅是通過 DataNode 定期向 NameNode 發送心跳來攜帶回傳的指令信息。

架構圖上專門標記了 Rack1 和 Rack2，表明了 HDFS 在考慮文件數據塊的多副本分佈時針對機架感知作了專門設計，細節我們這裏先不展開，更多關於 DataNode 的設計實現分析，後面會單獨成文詳解。

Client

考慮到 HDFS 交互過程的複雜性，所以特地提供了針特定編程語言的 Client 以簡化使用。Client 的職責如下：

提供面向應用編程語言的一致 API，簡化應用編程
改善訪問性能

Client 之所以能夠改善性能是因爲針對讀可以提供緩存（cache），針對寫可以通過緩衝（buffer）批量方式，細節我們這裏也先不展開，更多關於 Client 的設計實現分析，後面會單獨成文詳解。

總結

本來想在一篇文章裏寫完 HDFS 架構解析的，寫着寫着發現不太可能。作爲分佈式系統中最複雜的分佈式存儲類系統，每一個架構設計權衡的實現細節點，都值得好好推敲，一旦展開此文感覺就會長的沒完沒了，所以這裏先總體過一下，針對每個部分的設計實現細節再以主題文章來詳細解析。

參考

［1］Hadoop Documentation. HDFS Architecture.
［2］Robert Chansler, Hairong Kuang, Sanjay Radia, Konstantin Shvachko, and Suresh Srinivas. The Hadoop Distributed File System

分佈式存儲系統sheepdog

Sheepdog，是由NTT的3名日本研究員開發的開源項目，主要用來爲虛擬機提供塊設備。

其架構如下：

下面，我們將從架構、模塊等幾個方面來介紹下：

一、架構圖

如上圖：

採用無中心節點的全對稱架構，無單點故障，存儲容量和性能可線性擴展；

新增節點通過簡單配置可自動加入（IP:PORT），數據自動實現負載均衡；

節點故障時，數據可自動恢復；

直接支持QEMU/KVM應用；

二、模塊

如上圖：

由corosync，完成集羣成員管理和消息傳遞；

由Qemu作爲Sheepdog的客戶端，提供NBD/iSCSI協議支持；

由gateway實現數據的DHT路由，由storage server數據數據本地存儲；

三、數據具體存儲方式

如上圖：

以VDI Object存儲VM數據，向用戶暴露的是一個塊設備；

包含4種數據對象：VDI、Data Object、屬性對象和用於快照的VM實時狀態數據對象；

以4M的小文件方式實現OBS，但很容易基於此擴展，如使用使用庫替代4M的小文件；

四、集羣管理

1. 採用corosync，tot是em協議的一個開源實現。totem協議主要用來實現集羣成員管理和可靠順序傳輸。

2. corosync通過提供一個CPG API來提供服務。

首先，綁定一個fd到cpg_handle，並註冊回調函數cpg_dispatch；

然後將fd註冊到epoll；

corosync上消息會觸發fd改變，通用epoll觸發回調函數cpg_dispatch；

這裏主要有兩個函數，cpg_deliver_fn和cpg_confchg_fn，分別對應sd_deliver和sd_confchg.

其中，sd_deliver負責集羣從corosync給本地發消息，主要是針對VDI進行操作；而sd_confchg主要是對node進行操作，用來監控集羣成員變化。

五、存儲對象管理

集羣對象版本epoch；

obj目錄下，每個新的epoch要對應創建一個新的目錄；

可從epoch恢復數據；

六、一致性模型

通過epoll機制保證；

通過數據操作實現強一致性（多副本的寫同時成功時，才向client返回）；

七、DHT路由

代理路由方式；

由ip:port生成節點編號，做一致性哈希；

八、副本放置

一致性哈希；

虛擬節點；

如需瞭解更詳細信息，可參考其官網：http://www.osrg.net/sheepdog/

文章轉自：

http://blog.csdn.net/it_yuan/article/details/8980849

http://blog.csdn.net/kidd_3/article/details/8154964

http://blog.csdn.net/mindfloating/article/details/47842495

各類分佈式存儲系統簡介

HDFS 架構解析

架構目標

架構總攬

NameNode

DataNode

Client

總結

參考

分佈式存儲系統sheepdog

AI模型 Llama 3體驗筆記

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

RCU鎖機制原理解析

git更新代碼及相關操作

daemon 守護進程

Linux修改進程能打開最大文件數（Could not set limit for ‘nofile’: Operation not permitted）

centos7下sheepdog環境的搭建

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結