29道Zookeeper面試題超詳細(附答案)

原文鏈接

ZooKeeper是一個分佈式的，開放源碼的分佈式應用程序協調服務，是Google的Chubby一個開源的實現，是Hadoop和Hbase的重要組件。它是一個爲分佈式應用提供一致性服務的軟件，提供的功能包括：配置維護、域名服務、分佈式同步、組服務等。

在分佈式領域，Zookeeper的身影出現的越來越頻繁。以下整理了Zookeeper的29道面試題，附答案，如有不恰當之處歡迎留言指正。

1. ZooKeeper是什麼？

ZooKeeper是一個開放源碼的分佈式協調服務，它是集羣的管理者，監視着集羣中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

分佈式應用程序可以基於Zookeeper實現諸如數據發佈/訂閱、負載均衡、命名服務、分佈式協調/通知、集羣管理、Master選舉、分佈式鎖和分佈式隊列等功能。

Zookeeper保證瞭如下分佈式一致性特性：

順序一致性
原子性
單一視圖
可靠性
實時性（最終一致性）

客戶端的讀請求可以被集羣中的任意一臺機器處理，如果讀請求在節點上註冊了監聽器，這個監聽器也是由所連接的zookeeper機器來處理。對於寫請求，這些請求會同時發給其他zookeeper機器並且達成一致後，請求才會返回成功。因此，隨着zookeeper的集羣機器增多，讀請求的吞吐會提高但是寫請求的吞吐會下降。

有序性是zookeeper中非常重要的一個特性，所有的更新都是全局有序的，每個更新都有一個唯一的時間戳，這個時間戳稱爲zxid（Zookeeper Transaction Id）。而讀請求只會相對於更新有序，也就是讀請求的返回結果中會帶有這個zookeeper最新的zxid。

2. ZooKeeper提供了什麼？

1、文件系統

2、通知機制

3. Zookeeper文件系統

Zookeeper提供一個多層級的節點命名空間（節點稱爲znode）。與文件系統不同的是，這些節點都可以設置關聯的數據，而文件系統中只有文件節點可以存放數據而目錄節點不行。
Zookeeper爲了保證高吞吐和低延遲，在內存中維護了這個樹狀的目錄結構，這種特性使得Zookeeper不能用於存放大量的數據，每個節點的存放數據上限爲1M。

4. ZAB協議？

ZAB協議是爲分佈式協調服務Zookeeper專門設計的一種支持崩潰恢復的原子廣播協議。

ZAB協議包括兩種基本的模式：崩潰恢復和消息廣播。

當整個zookeeper集羣剛剛啓動或者Leader服務器宕機、重啓或者網絡故障導致不存在過半的服務器與Leader服務器保持正常通信時，所有進程（服務器）進入崩潰恢復模式，首先選舉產生新的Leader服務器，然後集羣中Follower服務器開始與新的Leader服務器進行數據同步，當集羣中超過半數機器與該Leader服務器完成數據同步之後，退出恢復模式進入消息廣播模式，Leader服務器開始接收客戶端的事務請求生成事物提案來進行事務請求處理。

5. 四種類型的數據節點 Znode

PERSISTENT-持久節點
除非手動刪除，否則節點一直存在於Zookeeper上
EPHEMERAL-臨時節點
臨時節點的生命週期與客戶端會話綁定，一旦客戶端會話失效（客戶端與zookeeper連接斷開不一定會話失效），那麼這個客戶端創建的所有臨時節點都會被移除。
PERSISTENT_SEQUENTIAL-持久順序節點
基本特性同持久節點，只是增加了順序屬性，節點名後邊會追加一個由父節點維護的自增整型數字。
EPHEMERAL_SEQUENTIAL-臨時順序節點
基本特性同臨時節點，增加了順序屬性，節點名後邊會追加一個由父節點維護的自增整型數字。

6. Zookeeper Watcher 機制 – 數據變更通知

Zookeeper允許客戶端向服務端的某個Znode註冊一個Watcher監聽，當服務端的一些指定事件觸發了這個Watcher，服務端會向指定客戶端發送一個事件通知來實現分佈式的通知功能，然後客戶端根據Watcher通知狀態和事件類型做出業務上的改變。

工作機制：

客戶端註冊watcher
服務端處理watcher
客戶端回調watcher

Watcher特性總結：
1、一次性
無論是服務端還是客戶端，一旦一個Watcher被觸發，Zookeeper都會將其從相應的存儲中移除。這樣的設計有效的減輕了服務端的壓力，不然對於更新非常頻繁的節點，服務端會不斷的向客戶端發送事件通知，無論對於網絡還是服務端的壓力都非常大。
2、客戶端串行執行
客戶端Watcher回調的過程是一個串行同步的過程。
3、輕量
1）Watcher通知非常簡單，只會告訴客戶端發生了事件，而不會說明事件的具體內容。

2）客戶端向服務端註冊Watcher的時候，並不會把客戶端真實的Watcher對象實體傳遞到服務端，僅僅是在客戶端請求中使用boolean類型屬性進行了標記。

4、watcher event異步發送watcher的通知事件從server發送到client是異步的，這就存在一個問題，不同的客戶端和服務器之間通過socket進行通信，由於網絡延遲或其他因素導致客戶端在不通的時刻監聽到事件，由於Zookeeper本身提供了ordering guarantee，即客戶端監聽事件後，纔會感知它所監視znode發生了變化。所以我們使用Zookeeper不能期望能夠監控到節點每次的變化。Zookeeper只能保證最終的一致性，而無法保證強一致性。
5、註冊watcher getData、exists、getChildren
6、觸發watcher create、delete、setData
7、當一個客戶端連接到一個新的服務器上時，watch將會被以任意會話事件觸發。當與一個服務器失去連接的時候，是無法接收到watch的。而當client重新連接時，如果需要的話，所有先前註冊過的watch，都會被重新註冊。通常這是完全透明的。只有在一個特殊情況下，watch可能會丟失：對於一個未創建的znode的exist watch，如果在客戶端斷開連接期間被創建了，並且隨後在客戶端連接上之前又刪除了，這種情況下，這個watch事件可能會被丟失。

7. 客戶端註冊Watcher實現

調用getData()/getChildren()/exist()三個API，傳入Watcher對象
標記請求request，封裝Watcher到WatchRegistration
封裝成Packet對象，發服務端發送request
收到服務端響應後，將Watcher註冊到ZKWatcherManager中進行管理
請求返回，完成註冊。

8. 服務端處理Watcher實現

服務端接收Watcher並存儲
接收到客戶端請求，處理請求判斷是否需要註冊Watcher，需要的話將數據節點的節點路徑和ServerCnxn（ServerCnxn代表一個客戶端和服務端的連接，實現了Watcher的process接口，此時可以看成一個Watcher對象）存儲在WatcherManager的WatchTable和watch2Paths中去。

Watcher觸發
以服務端接收到 setData() 事務請求觸發NodeDataChanged事件爲例：

封裝WatchedEvent
將通知狀態（SyncConnected）、事件類型（NodeDataChanged）以及節點路徑封裝成一個WatchedEvent對象

查詢Watcher
從WatchTable中根據節點路徑查找Watcher
沒找到；說明沒有客戶端在該數據節點上註冊過Watcher
找到；提取並從WatchTable和Watch2Paths中刪除對應Watcher（從這裏可以看出Watcher在服務端是一次性的，觸發一次就失效了）
調用process方法來觸發Watcher
這裏process主要就是通過ServerCnxn對應的TCP連接發送Watcher事件通知。

9. 客戶端回調Watcher

客戶端SendThread線程接收事件通知，交由EventThread線程回調Watcher。客戶端的Watcher機制同樣是一次性的，一旦被觸發後，該Watcher就失效了。

10. ACL權限控制機制

UGO（User/Group/Others）
目前在Linux/Unix文件系統中使用，也是使用最廣泛的權限控制方式。是一種粗粒度的文件系統權限控制模式。

ACL（Access Control List）訪問控制列表
包括三個方面：

權限模式（Scheme）

IP：從IP地址粒度進行權限控制
Digest：最常用，用類似於 username:password 的權限標識來進行權限配置，便於區分不同應用來進行權限控制
World：最開放的權限控制方式，是一種特殊的digest模式，只有一個權限標識“world:anyone”
Super：超級用戶

授權對象

授權對象指的是權限賦予的用戶或一個指定實體，例如IP地址或是機器燈。

權限 Permission

CREATE：數據節點創建權限，允許授權對象在該Znode下創建子節點
DELETE：子節點刪除權限，允許授權對象刪除該數據節點的子節點
READ：數據節點的讀取權限，允許授權對象訪問該數據節點並讀取其數據內容或子節點列表等
WRITE：數據節點更新權限，允許授權對象對該數據節點進行更新操作
ADMIN：數據節點管理權限，允許授權對象對該數據節點進行ACL相關設置操作

11. Chroot特性

3.2.0版本後，添加了 Chroot特性，該特性允許每個客戶端爲自己設置一個命名空間。如果一個客戶端設置了Chroot，那麼該客戶端對服務器的任何操作，都將會被限制在其自己的命名空間下。

通過設置Chroot，能夠將一個客戶端應用於Zookeeper服務端的一顆子樹相對應，在那些多個應用公用一個Zookeeper進羣的場景下，對實現不同應用間的相互隔離非常有幫助。

12. 會話管理

分桶策略： 將類似的會話放在同一區塊中進行管理，以便於Zookeeper對會話進行不同區塊的隔離處理以及同一區塊的統一處理。

分配原則： 每個會話的“下次超時時間點”（ExpirationTime）

計算公式：
ExpirationTime_ = currentTime + sessionTimeout
ExpirationTime = (ExpirationTime_ / ExpirationInrerval + 1) * ExpirationInterval , ExpirationInterval 是指 Zookeeper 會話超時檢查時間間隔，默認 tickTime

13. 服務器角色

Leader

事務請求的-唯一調度和處理者，保證集羣事務處理的順序性
集羣內部各服務的調度者

Follower

處理客戶端的非事務請求，轉發事務請求給Leader服務器
參與事務請求Proposal的投票
參與Leader選舉投票

Observer

3.3.0版本以後引入的一個服務器角色，在不影響集羣事務處理能力的基礎上提升集羣的非事務處理能力
處理客戶端的非事務請求，轉發事務請求給Leader服務器
不參與任何形式的投票

14. Zookeeper 下 Server工作狀態

服務器具有四種狀態，分別是LOOKING、FOLLOWING、LEADING、OBSERVING。

LOOKING： 尋找Leader狀態。當服務器處於該狀態時，它會認爲當前集羣中沒有Leader，因此需要進入Leader選舉狀態。
FOLLOWING： 跟隨者狀態。表明當前服務器角色是Follower。
LEADING： 領導者狀態。表明當前服務器角色是Leader。
OBSERVING： 觀察者狀態。表明當前服務器角色是Observer。

15. Leader 選舉

Leader選舉是保證分佈式數據一致性的關鍵所在。當Zookeeper集羣中的一臺服務器出現以下兩種情況之一時，需要進入Leader選舉。

(1) 服務器初始化啓動。

(2) 服務器運行期間無法和Leader保持連接。

下面就兩種情況進行分析講解。

1. 服務器啓動時期的Leader選舉
　　若進行Leader選舉，則至少需要兩臺機器，這裏選取3臺機器組成的服務器集羣爲例。在集羣初始化階段，當有一臺服務器Server1啓動時，其單獨無法進行和完成Leader選舉，當第二臺服務器Server2啓動時，此時兩臺機器可以相互通信，每臺機器都試圖找到Leader，於是進入Leader選舉過程。選舉過程如下

(1) 每個Server發出一個投票。 由於是初始情況，Server1和Server2都會將自己作爲Leader服務器來進行投票，每次投票會包含所推舉的服務器的myid和ZXID，使用(myid, ZXID)來表示，此時Server1的投票爲(1, 0)，Server2的投票爲(2, 0)，然後各自將這個投票發給集羣中其他機器。

(2) 接受來自各個服務器的投票。 集羣的每個服務器收到投票後，首先判斷該投票的有效性，如檢查是否是本輪投票、是否來自LOOKING狀態的服務器。

(3) 處理投票。 針對每一個投票，服務器都需要將別人的投票和自己的投票進行PK，PK規則如下

優先檢查ZXID。ZXID比較大的服務器優先作爲Leader。
如果ZXID相同，那麼就比較myid。myid較大的服務器作爲Leader服務器。

對於Server1而言，它的投票是(1, 0)，接收Server2的投票爲(2, 0)，首先會比較兩者的ZXID，均爲0，再比較myid，此時Server2的myid最大，於是更新自己的投票爲(2, 0)，然後重新投票，對於Server2而言，其無須更新自己的投票，只是再次向集羣中所有機器發出上一次投票信息即可。

(4) 統計投票。 每次投票後，服務器都會統計投票信息，判斷是否已經有過半機器接受到相同的投票信息，對於Server1、Server2而言，都統計出集羣中已經有兩臺機器接受了(2, 0)的投票信息，此時便認爲已經選出了Leader。

(5) 改變服務器狀態。 一旦確定了Leader，每個服務器就會更新自己的狀態，如果是Follower，那麼就變更爲FOLLOWING，如果是Leader，就變更爲LEADING。

2. 服務器運行時期的Leader選舉
在Zookeeper運行期間，Leader與非Leader服務器各司其職，即便當有非Leader服務器宕機或新加入，此時也不會影響Leader，但是一旦Leader服務器掛了，那麼整個集羣將暫停對外服務，進入新一輪Leader選舉，其過程和啓動時期的Leader選舉過程基本一致。假設正在運行的有Server1、Server2、Server3三臺服務器，當前Leader是Server2，若某一時刻Leader掛了，此時便開始Leader選舉。選舉過程如下

(1) 變更狀態。 Leader掛後，餘下的非Observer服務器都會講自己的服務器狀態變更爲LOOKING，然後開始進入Leader選舉過程。

(2) 每個Server會發出一個投票。 在運行期間，每個服務器上的ZXID可能不同，此時假定Server1的ZXID爲123，Server3的ZXID爲122；在第一輪投票中，Server1和Server3都會投自己，產生投票(1, 123)，(3, 122)，然後各自將投票發送給集羣中所有機器。

(3) 接收來自各個服務器的投票。 與啓動時過程相同。

(4) 處理投票。 與啓動時過程相同，此時，Server1將會成爲Leader。

(5) 統計投票。 與啓動時過程相同。

(6) 改變服務器的狀態。 與啓動時過程相同。

2.2 Leader選舉算法分析
　　在3.4.0後的Zookeeper的版本只保留了TCP版本的FastLeaderElection選舉算法。當一臺機器進入Leader選舉時，當前集羣可能會處於以下兩種狀態

集羣中已經存在Leader。
集羣中不存在Leader。

對於集羣中已經存在Leader而言，此種情況一般都是某臺機器啓動得較晚，在其啓動之前，集羣已經在正常工作，對這種情況，該機器試圖去選舉Leader時，會被告知當前服務器的Leader信息，對於該機器而言，僅僅需要和Leader機器建立起連接，並進行狀態同步即可。而在集羣中不存在Leader情況下則會相對複雜，其步驟如下

(1) 第一次投票。 無論哪種導致進行Leader選舉，集羣的所有機器都處於試圖選舉出一個Leader的狀態，即LOOKING狀態，LOOKING機器會向所有其他機器發送消息，該消息稱爲投票。投票中包含了SID（服務器的唯一標識）和ZXID（事務ID），(SID, ZXID)形式來標識一次投票信息。假定Zookeeper由5臺機器組成，SID分別爲1、2、3、4、5，ZXID分別爲9、9、9、8、8，並且此時SID爲2的機器是Leader機器，某一時刻，1、2所在機器出現故障，因此集羣開始進行Leader選舉。在第一次投票時，每臺機器都會將自己作爲投票對象，於是SID爲3、4、5的機器投票情況分別爲(3, 9)，(4, 8)， (5, 8)。

(2) 變更投票。 每臺機器發出投票後，也會收到其他機器的投票，每臺機器會根據一定規則來處理收到的其他機器的投票，並以此來決定是否需要變更自己的投票，這個規則也是整個Leader選舉算法的核心所在，其中術語描述如下

vote_sid：接收到的投票中所推舉Leader服務器的SID。
vote_zxid：接收到的投票中所推舉Leader服務器的ZXID。
self_sid：當前服務器自己的SID。
self_zxid：當前服務器自己的ZXID。

每次對收到的投票的處理，都是對(vote_sid, vote_zxid)和(self_sid, self_zxid)對比的過程。

規則一：如果vote_zxid大於self_zxid，就認可當前收到的投票，並再次將該投票發送出去。
規則二：如果vote_zxid小於self_zxid，那麼堅持自己的投票，不做任何變更。
規則三：如果vote_zxid等於self_zxid，那麼就對比兩者的SID，如果vote_sid大於self_sid，那麼就認可當前收到的投票，並再次將該投票發送出去。
規則四：如果vote_zxid等於self_zxid，並且vote_sid小於self_sid，那麼堅持自己的投票，不做任何變更。

結合上面規則，給出下面的集羣變更過程。

(3) 確定Leader。 經過第二輪投票後，集羣中的每臺機器都會再次接收到其他機器的投票，然後開始統計投票，如果一臺機器收到了超過半數的相同投票，那麼這個投票對應的SID機器即爲Leader。此時Server3將成爲Leader。

由上面規則可知，通常那臺服務器上的數據越新（ZXID會越大），其成爲Leader的可能性越大，也就越能夠保證數據的恢復。如果ZXID相同，則SID越大機會越大。

2.3 Leader選舉實現細節
1. 服務器狀態

服務器具有四種狀態，分別是LOOKING、FOLLOWING、LEADING、OBSERVING。

LOOKING：尋找Leader狀態。當服務器處於該狀態時，它會認爲當前集羣中沒有Leader，因此需要進入Leader選舉狀態。

FOLLOWING：跟隨者狀態。表明當前服務器角色是Follower。

LEADING：領導者狀態。表明當前服務器角色是Leader。

OBSERVING：觀察者狀態。表明當前服務器角色是Observer。

2. 投票數據結構

每個投票中包含了兩個最基本的信息，所推舉服務器的SID和ZXID，投票（Vote）在Zookeeper中包含字段如下

id：被推舉的Leader的SID。

zxid：被推舉的Leader事務ID。

electionEpoch：邏輯時鐘，用來判斷多個投票是否在同一輪選舉週期中，該值在服務端是一個自增序列，每次進入新一輪的投票後，都會對該值進行加1操作。

peerEpoch：被推舉的Leader的epoch。

state：當前服務器的狀態。

3. QuorumCnxManager：網絡I/O

每臺服務器在啓動的過程中，會啓動一個QuorumPeerManager，負責各臺服務器之間的底層Leader選舉過程中的網絡通信。

(1) 消息隊列。 QuorumCnxManager內部維護了一系列的隊列，用來保存接收到的、待發送的消息以及消息的發送器，除接收隊列以外，其他隊列都按照SID分組形成隊列集合，如一個集羣中除了自身還有3臺機器，那麼就會爲這3臺機器分別創建一個發送隊列，互不干擾。

recvQueue：消息接收隊列，用於存放那些從其他服務器接收到的消息。
queueSendMap：消息發送隊列，用於保存那些待發送的消息，按照SID進行分組。
senderWorkerMap：發送器集合，每個SenderWorker消息發送器，都對應一臺遠程Zookeeper服務器，負責消息的發送，也按照SID進行分組。
lastMessageSent：最近發送過的消息，爲每個SID保留最近發送過的一個消息。

(2) 建立連接。 爲了能夠相互投票，Zookeeper集羣中的所有機器都需要兩兩建立起網絡連接。QuorumCnxManager在啓動時會創建一個ServerSocket來監聽Leader選舉的通信端口(默認爲3888)。開啓監聽後，Zookeeper能夠不斷地接收到來自其他服務器的創建連接請求，在接收到其他服務器的TCP連接請求時，會進行處理。爲了避免兩臺機器之間重複地創建TCP連接，Zookeeper只允許SID大的服務器主動和其他機器建立連接，否則斷開連接。在接收到創建連接請求後，服務器通過對比自己和遠程服務器的SID值來判斷是否接收連接請求，如果當前服務器發現自己的SID更大，那麼會斷開當前連接，然後自己主動和遠程服務器建立連接。一旦連接建立，就會根據遠程服務器的SID來創建相應的消息發送器SendWorker和消息接收器RecvWorker，並啓動。

(3) 消息接收與發送。 消息接收：由消息接收器RecvWorker負責，由於Zookeeper爲每個遠程服務器都分配一個單獨的RecvWorker，因此，每個RecvWorker只需要不斷地從這個TCP連接中讀取消息，並將其保存到recvQueue隊列中。消息發送：由於Zookeeper爲每個遠程服務器都分配一個單獨的SendWorker，因此，每個SendWorker只需要不斷地從對應的消息發送隊列中獲取出一個消息發送即可，同時將這個消息放入lastMessageSent中。在SendWorker中，一旦Zookeeper發現針對當前服務器的消息發送隊列爲空，那麼此時需要從lastMessageSent中取出一個最近發送過的消息來進行再次發送，這是爲了解決接收方在消息接收前或者接收到消息後服務器掛了，導致消息尚未被正確處理。同時，Zookeeper能夠保證接收方在處理消息時，會對重複消息進行正確的處理。

4. FastLeaderElection：選舉算法核心

外部投票：特指其他服務器發來的投票。
內部投票：服務器自身當前的投票。
選舉輪次：Zookeeper服務器Leader選舉的輪次，即logicalclock。
PK：對內部投票和外部投票進行對比來確定是否需要變更內部投票。

(1) 選票管理

sendqueue：選票發送隊列，用於保存待發送的選票。
recvqueue：選票接收隊列，用於保存接收到的外部投票。
WorkerReceiver：選票接收器。其會不斷地從QuorumCnxManager中獲取其他服務器發來的選舉消息，並將其轉換成一個選票，然後保存到recvqueue中，在選票接收過程中，如果發現該外部選票的選舉輪次小於當前服務器的，那麼忽略該外部投票，同時立即發送自己的內部投票。
WorkerSender：選票發送器，不斷地從sendqueue中獲取待發送的選票，並將其傳遞到底層QuorumCnxManager中。

(2) 算法核心

上圖展示了FastLeaderElection模塊是如何與底層網絡I/O進行交互的。Leader選舉的基本流程如下

1. 自增選舉輪次。 Zookeeper規定所有有效的投票都必須在同一輪次中，在開始新一輪投票時，會首先對logicalclock進行自增操作。

2. 初始化選票。 在開始進行新一輪投票之前，每個服務器都會初始化自身的選票，並且在初始化階段，每臺服務器都會將自己推舉爲Leader。

3. 發送初始化選票。 完成選票的初始化後，服務器就會發起第一次投票。Zookeeper會將剛剛初始化好的選票放入sendqueue中，由發送器WorkerSender負責發送出去。

4. 接收外部投票。 每臺服務器會不斷地從recvqueue隊列中獲取外部選票。如果服務器發現無法獲取到任何外部投票，那麼就會立即確認自己是否和集羣中其他服務器保持着有效的連接，如果沒有連接，則馬上建立連接，如果已經建立了連接，則再次發送自己當前的內部投票。

5. 判斷選舉輪次。 在發送完初始化選票之後，接着開始處理外部投票。在處理外部投票時，會根據選舉輪次來進行不同的處理。

外部投票的選舉輪次大於內部投票。若服務器自身的選舉輪次落後於該外部投票對應服務器的選舉輪次，那麼就會立即更新自己的選舉輪次(logicalclock)，並且清空所有已經收到的投票，然後使用初始化的投票來進行PK以確定是否變更內部投票。最終再將內部投票發送出去。
外部投票的選舉輪次小於內部投票。若服務器接收的外選票的選舉輪次落後於自身的選舉輪次，那麼Zookeeper就會直接忽略該外部投票，不做任何處理，並返回步驟4。
外部投票的選舉輪次等於內部投票。此時可以開始進行選票PK。

6. 選票PK。 在進行選票PK時，符合任意一個條件就需要變更投票。

若外部投票中推舉的Leader服務器的選舉輪次大於內部投票，那麼需要變更投票。
若選舉輪次一致，那麼就對比兩者的ZXID，若外部投票的ZXID大，那麼需要變更投票。
若兩者的ZXID一致，那麼就對比兩者的SID，若外部投票的SID大，那麼就需要變更投票。

7. 變更投票。 經過PK後，若確定了外部投票優於內部投票，那麼就變更投票，即使用外部投票的選票信息來覆蓋內部投票，變更完成後，再次將這個變更後的內部投票發送出去。

8. 選票歸檔。 無論是否變更了投票，都會將剛剛收到的那份外部投票放入選票集合recvset中進行歸檔。recvset用於記錄當前服務器在本輪次的Leader選舉中收到的所有外部投票（按照服務隊的SID區別，如{(1, vote1), (2, vote2)…}）。

9. 統計投票。 完成選票歸檔後，就可以開始統計投票，統計投票是爲了統計集羣中是否已經有過半的服務器認可了當前的內部投票，如果確定已經有過半服務器認可了該投票，則終止投票。否則返回步驟4。

10. 更新服務器狀態。 若已經確定可以終止投票，那麼就開始更新服務器狀態，服務器首選判斷當前被過半服務器認可的投票所對應的Leader服務器是否是自己，若是自己，則將自己的服務器狀態更新爲LEADING，若不是，則根據具體情況來確定自己是FOLLOWING或是OBSERVING。

以上10個步驟就是FastLeaderElection的核心，其中步驟4-9會經過幾輪循環，直到有Leader選舉產生。

16. 數據同步

整個集羣完成Leader選舉之後，Learner（Follower和Observer的統稱）迴向Leader服務器進行註冊。當Learner服務器想Leader服務器完成註冊後，進入數據同步環節。

數據同步流程：（均以消息傳遞的方式進行）

i. Learner向Learder註冊
ii. 數據同步
iii. 同步確認
Zookeeper的數據同步通常分爲四類：

直接差異化同步（DIFF同步）
先回滾再差異化同步（TRUNC+DIFF同步）
僅回滾同步（TRUNC同步）
全量同步（SNAP同步）
在進行數據同步前，Leader服務器會完成數據同步初始化：

peerLastZxid：從learner服務器註冊時發送的ACKEPOCH消息中提取lastZxid（該Learner服務器最後處理的ZXID）
minCommittedLog：Leader服務器Proposal緩存隊列committedLog中最小ZXID
maxCommittedLog：Leader服務器Proposal緩存隊列committedLog中最大ZXID
直接差異化同步（DIFF同步）

場景：peerLastZxid介於minCommittedLog和maxCommittedLog之間
先回滾再差異化同步（TRUNC+DIFF同步）

場景：當新的Leader服務器發現某個Learner服務器包含了一條自己沒有的事務記錄，那麼就需要讓該Learner服務器進行事務回滾–回滾到Leader服務器上存在的，同時也是最接近於peerLastZxid的ZXID
僅回滾同步（TRUNC同步）

場景：peerLastZxid 大於 maxCommittedLog
全量同步（SNAP同步）

場景一：peerLastZxid 小於 minCommittedLog
場景二：Leader服務器上沒有Proposal緩存隊列且peerLastZxid不等於lastProcessZxid

17. zookeeper是如何保證事務的順序一致性的？

zookeeper採用了全局遞增的事務Id來標識，所有的proposal（提議）都在被提出的時候加上了zxid，zxid實際上是一個64位的數字，高32位是epoch（時期; 紀元; 世; 新時代）用來標識leader週期，如果有新的leader產生出來，epoch會自增，低32位用來遞增計數。當新產生proposal的時候，會依據數據庫的兩階段過程，首先會向其他的server發出事務執行請求，如果超過半數的機器都能執行並且能夠成功，那麼就會開始執行。

18. 分佈式集羣中爲什麼會有Master？

在分佈式環境中，有些業務邏輯只需要集羣中的某一臺機器進行執行，其他的機器可以共享這個結果，這樣可以大大減少重複計算，提高性能，於是就需要進行leader選舉。

19. zk節點宕機如何處理？

Zookeeper本身也是集羣，推薦配置不少於3個服務器。Zookeeper自身也要保證當一個節點宕機時，其他節點會繼續提供服務。
如果是一個Follower宕機，還有2臺服務器提供訪問，因爲Zookeeper上的數據是有多個副本的，數據並不會丟失；
如果是一個Leader宕機，Zookeeper會選舉出新的Leader。
ZK集羣的機制是隻要超過半數的節點正常，集羣就能正常提供服務。只有在ZK節點掛得太多，只剩一半或不到一半節點能工作，集羣才失效。
所以
3個節點的cluster可以掛掉1個節點(leader可以得到2票>1.5)
2個節點的cluster就不能掛掉任何1個節點了(leader可以得到1票<=1)

20. zookeeper負載均衡和nginx負載均衡區別

zk的負載均衡是可以調控，nginx只是能調權重，其他需要可控的都需要自己寫插件；但是nginx的吞吐量比zk大很多，應該說按業務選擇用哪種方式。

21. Zookeeper有哪幾種幾種部署模式？

部署模式：單機模式、僞集羣模式、集羣模式。

22. 集羣最少要幾臺機器，集羣規則是怎樣的?

集羣規則爲2N+1臺，N>0，即3臺。

23. 集羣支持動態添加機器嗎？

其實就是水平擴容了，Zookeeper在這方面不太好。兩種方式：

全部重啓：關閉所有Zookeeper服務，修改配置之後啓動。不影響之前客戶端的會話。
逐個重啓：在過半存活即可用的原則下，一臺機器重啓不影響整個集羣對外提供服務。這是比較常用的方式。
3.5版本開始支持動態擴容。

24. Zookeeper對節點的watch監聽通知是永久的嗎？爲什麼不是永久的?

不是。官方聲明：一個Watch事件是一個一次性的觸發器，當被設置了Watch的數據發生了改變的時候，則服務器將這個改變發送給設置了Watch的客戶端，以便通知它們。

爲什麼不是永久的，舉個例子，如果服務端變動頻繁，而監聽的客戶端很多情況下，每次變動都要通知到所有的客戶端，給網絡和服務器造成很大壓力。
一般是客戶端執行getData(“/節點A”,true)，如果節點A發生了變更或刪除，客戶端會得到它的watch事件，但是在之後節點A又發生了變更，而客戶端又沒有設置watch事件，就不再給客戶端發送。
在實際應用中，很多情況下，我們的客戶端不需要知道服務端的每一次變動，我只要最新的數據即可。

25. Zookeeper的java客戶端都有哪些？

java客戶端：zk自帶的zkclient及Apache開源的Curator。

26. chubby是什麼，和zookeeper比你怎麼看？

chubby是google的，完全實現paxos算法，不開源。zookeeper是chubby的開源實現，使用zab協議，paxos算法的變種。

27. 說幾個zookeeper常用的命令。

常用命令：ls get set create delete等。

28. ZAB和Paxos算法的聯繫與區別？

相同點：
兩者都存在一個類似於Leader進程的角色，由其負責協調多個Follower進程的運行
Leader進程都會等待超過半數的Follower做出正確的反饋後，纔會將一個提案進行提交
ZAB協議中，每個Proposal中都包含一個 epoch 值來代表當前的Leader週期，Paxos中名字爲Ballot
不同點：
ZAB用來構建高可用的分佈式數據主備系統（Zookeeper），Paxos是用來構建分佈式一致性狀態機系統。

29. Zookeeper的典型應用場景

Zookeeper是一個典型的發佈/訂閱模式的分佈式數據管理與協調框架，開發人員可以使用它來進行分佈式數據的發佈和訂閱。

通過對Zookeeper中豐富的數據節點進行交叉使用，配合Watcher事件通知機制，可以非常方便的構建一系列分佈式應用中年都會涉及的核心功能，如：

數據發佈/訂閱
負載均衡
命名服務
分佈式協調/通知
集羣管理
Master選舉
分佈式鎖
分佈式隊列

29.1 數據發佈/訂閱

介紹
數據發佈/訂閱系統，即所謂的配置中心，顧名思義就是發佈者發佈數據供訂閱者進行數據訂閱。

目的

動態獲取數據（配置信息）
實現數據（配置信息）的集中式管理和數據的動態更新

設計模式

Push 模式
Pull 模式

數據（配置信息）特性

數據量通常比較小
數據內容在運行時會發生動態更新
集羣中各機器共享，配置一致

如：機器列表信息、運行時開關配置、數據庫配置信息等

基於Zookeeper的實現方式

數據存儲：將數據（配置信息）存儲到Zookeeper上的一個數據節點
數據獲取：應用在啓動初始化節點從Zookeeper數據節點讀取數據，並在該節點上註冊一個數據變更Watcher
數據變更：當變更數據時，更新Zookeeper對應節點數據，Zookeeper會將數據變更通知發到各客戶端，客戶端接到通知後重新讀取變更後的數據即可。

29.2 負載均衡

zk的命名服務
命名服務是指通過指定的名字來獲取資源或者服務的地址，利用zk創建一個全局的路徑，這個路徑就可以作爲一個名字，指向集羣中的集羣，提供的服務的地址，或者一個遠程的對象等等。

分佈式通知和協調
對於系統調度來說：操作人員發送通知實際是通過控制檯改變某個節點的狀態，然後zk將這些變化發送給註冊了這個節點的watcher的所有客戶端。
對於執行情況彙報：每個工作進程都在某個目錄下創建一個臨時節點。並攜帶工作的進度數據，這樣彙總的進程可以監控目錄子節點的變化獲得工作進度的實時的全局情況。

29.3 zk的命名服務（文件系統）

命名服務是指通過指定的名字來獲取資源或者服務的地址，利用zk創建一個全局的路徑，即是唯一的路徑，這個路徑就可以作爲一個名字，指向集羣中的集羣，提供的服務的地址，或者一個遠程的對象等等。

29.4 zk的配置管理（文件系統、通知機制）

程序分佈式的部署在不同的機器上，將程序的配置信息放在zk的znode下，當有配置發生改變時，也就是znode發生變化時，可以通過改變zk中某個目錄節點的內容，利用watcher通知給各個客戶端，從而更改配置。

29.5 Zookeeper集羣管理（文件系統、通知機制）
所謂集羣管理無在乎兩點：是否有機器退出和加入、選舉master。
對於第一點，所有機器約定在父目錄下創建臨時目錄節點，然後監聽父目錄節點的子節點變化消息。一旦有機器掛掉，該機器與 zookeeper的連接斷開，其所創建的臨時目錄節點被刪除，所有其他機器都收到通知：某個兄弟目錄被刪除，於是，所有人都知道：它上船了。
新機器加入也是類似，所有機器收到通知：新兄弟目錄加入，highcount又有了，對於第二點，我們稍微改變一下，所有機器創建臨時順序編號目錄節點，每次選取編號最小的機器作爲master就好。

29.6 Zookeeper分佈式鎖（文件系統、通知機制）

有了zookeeper的一致性文件系統，鎖的問題變得容易。鎖服務可以分爲兩類，一個是保持獨佔，另一個是控制時序。
對於第一類，我們將zookeeper上的一個znode看作是一把鎖，通過createznode的方式來實現。所有客戶端都去創建 /distribute_lock 節點，最終成功創建的那個客戶端也即擁有了這把鎖。用完刪除掉自己創建的distribute_lock 節點就釋放出鎖。
對於第二類， /distribute_lock 已經預先存在，所有客戶端在它下面創建臨時順序編號目錄節點，和選master一樣，編號最小的獲得鎖，用完刪除，依次方便。

29.7 獲取分佈式鎖的流程
clipboard.png

在獲取分佈式鎖的時候在locker節點下創建臨時順序節點，釋放鎖的時候刪除該臨時節點。客戶端調用createNode方法在locker下創建臨時順序節點，
然後調用getChildren(“locker”)來獲取locker下面的所有子節點，注意此時不用設置任何Watcher。客戶端獲取到所有的子節點path之後，如果發現自己創建的節點在所有創建的子節點序號最小，那麼就認爲該客戶端獲取到了鎖。如果發現自己創建的節點並非locker所有子節點中最小的，說明自己還沒有獲取到鎖，此時客戶端需要找到比自己小的那個節點，然後對其調用exist()方法，同時對其註冊事件監聽器。之後，讓這個被關注的節點刪除，則客戶端的Watcher會收到相應通知，此時再次判斷自己創建的節點是否是locker子節點中序號最小的，如果是則獲取到了鎖，如果不是則重複以上步驟繼續獲取到比自己小的一個節點並註冊監聽。當前這個過程中還需要許多的邏輯判斷。
clipboard.png

代碼的實現主要是基於互斥鎖，獲取分佈式鎖的重點邏輯在於BaseDistributedLock，實現了基於Zookeeper實現分佈式鎖的細節。

29.8 Zookeeper隊列管理（文件系統、通知機制）
兩種類型的隊列：
1、同步隊列，當一個隊列的成員都聚齊時，這個隊列纔可用，否則一直等待所有成員到達。
2、隊列按照 FIFO 方式進行入隊和出隊操作。
第一類，在約定目錄下創建臨時目錄節點，監聽節點數目是否是我們要求的數目。
第二類，和分佈式鎖服務中的控制時序場景基本原理一致，入列有編號，出列按編號。在特定的目錄下創建PERSISTENT_SEQUENTIAL節點，創建成功時Watcher通知等待的隊列，隊列刪除序列號最小的節點用以消費。此場景下Zookeeper的znode用於消息存儲，znode存儲的數據就是消息隊列中的消息內容，SEQUENTIAL序列號就是消息的編號，按序取出即可。由於創建的節點是持久化的，所以不必擔心隊列消息的丟失問題。