Zookeeper知識點整理

1.ZooKeeper是什麼？

ZooKeeper是一個分佈式的，開放源碼的分佈式應用程序協調服務，是Google的Chubby一個開源的實現，它是集羣的管理者，監視着集羣中各個節點的狀態根據節點提交的反饋進行下一步合理操作。最終，將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。
客戶端的讀請求可以被集羣中的任意一臺機器處理，如果讀請求在節點上註冊了監聽器，這個監聽器也是由所連接的zookeeper機器來處理。對於寫請求，這些請求會同時發給其他zookeeper機器並且達成一致後，請求才會返回成功。因此，隨着zookeeper的集羣機器增多，讀請求的吞吐會提高但是寫請求的吞吐會下降。
有序性是zookeeper中非常重要的一個特性，所有的更新都是全局有序的，每個更新都有一個唯一的時間戳，這個時間戳稱爲zxid（Zookeeper Transaction Id）。而讀請求只會相對於更新有序，也就是讀請求的返回結果中會帶有這個zookeeper最新的zxid。

2.ZooKeeper提供了什麼？

1、文件系統
2、通知機制

3.Zookeeper的應用場景有哪些？

1、數據發佈和/訂閱

主要的一個場景，比如配置中心。我們會將配置的相關信息都存放在一箇中心，這樣我們的應用就不用每次修改參數就要進行重啓，使用了zk作用配置中心的數據推送更新，這樣我們就能方便的進行數據更新，每次將相關數據發佈到配置中心，然後由應用服務去訂閱，這樣就能動態的進行配置數據的更新。

2、負載均衡

可以基於ZK來實現DDNS動態域名解析服務，從而達到域名的動態添加、修改、刪除等。能夠基於域名服務，進行應用的負載，從而達到請求負載到各個應用中。

3、命名服務

命名服務，主要的應用場景在於rpc服務，比如dubbo等框架，可以將相應的服務註冊在zk上，這樣服務調用就可以根據其所命名的服務來提供對外服務等。

4、分佈式協調/通知

對於一個在多臺機器部署運行的應用上，通常都需要一個協調者來控制整個系統的運行流程。比如分佈式事務、機器間的互相協調等。這樣能將分佈式協調的職責能從應用中分離出來，達到減少系統間的耦合性，提高系統的可擴展性。

5、集羣管理

在集羣環境中，機器和應用都是分散着進行部署，每次進行服務的上下線升級的過程中，都要手動進行集羣的管理，這樣造成人做的事比較重複性，並且也比較麻煩容易出錯。如果能使用zk來協助我們進行服務或機器進羣的管理，這樣將能幫助我們解決需要繁瑣又麻煩的事。

6、Master選舉

Master選舉，也就是在衆多機器或服務中，選舉出一個最終“決定權”的領導者，來獨立完成一項任務。比如有一項服務是需要對外提供服務，但是要保證高可用，我們就機會進行服務的多項部署，也就是做了一些備份，提高系統的可用性。一旦我們的主服務掛了，我們可以讓其它的備份服務進行重新選舉，這樣我們就能使整個系統不會因服務的掛掉而造成服務不可用。

7、分佈式鎖

分佈式鎖是控制分佈式系統間同步訪問共享資源的一種方式。如果不同的系統或同一個系統的不同主機之間共享了同一個資源，那麼訪問這些資源的時候，需要使用互斥的手段來防止彼此之間的干擾，以保證一致性，這種情況就需要使用分佈式鎖。

8、分佈式隊列

使用zk來實現分佈式隊列，分爲兩大類：FIFO先進先出隊列、Barrier分佈式屏障。FIFO隊列是一種很典型的隊列模型：先進入隊列的請求先完成操作後，纔會處理後面的請求；Barrier分佈式屏障，則是需要將隊列元素都集聚之後才進行統一的執行安排，否則只能等待。

4.Zookeeper文件系統

Zookeeper提供一個多層級的節點命名空間（節點稱爲znode）。與文件系統不同的是，這些節點都可以設置關聯的數據，而文件系統中只有文件節點可以存放數據而目錄節點不行。Zookeeper爲了保證高吞吐和低延遲，在內存中維護了這個樹狀的目錄結構，這種特性使得Zookeeper不能用於存放大量的數據，每個節點的存放數據上限爲1M。

5.四種類型的znode

1、PERSISTENT-持久化目錄節點
客戶端與zookeeper斷開連接後，該節點依舊存在
2、PERSISTENT_SEQUENTIAL-持久化順序編號目錄節點
客戶端與zookeeper斷開連接後，該節點依舊存在，只是Zookeeper給該節點名稱進行順序編號
3、EPHEMERAL-臨時目錄節點
客戶端與zookeeper斷開連接後，該節點被刪除
4、EPHEMERAL_SEQUENTIAL-臨時順序編號目錄節點
客戶端與zookeeper斷開連接後，該節點被刪除，只是Zookeeper給該節點名稱進行順序編號

6.Zookeeper通知機制

client端會對某個znode建立一個watcher事件，當該znode發生變化時，這些client會收到zk的通知，然後client可以根據znode變化來做出業務上的改變等。

7.zk的命名服務（文件系統）

命名服務是指通過指定的名字來獲取資源或者服務的地址，利用zk創建一個全局的路徑，即是唯一的路徑，這個路徑就可以作爲一個名字，指向集羣中的集羣，提供的服務的地址，或者一個遠程的對象等等。

8.zk的配置管理（文件系統、通知機制）

程序分佈式的部署在不同的機器上，將程序的配置信息放在zk的znode下，當有配置發生改變時，也就是znode發生變化時，可以通過改變zk中某個目錄節點的內容，利用watcher通知給各個客戶端，從而更改配置。

9.Zookeeper集羣管理（文件系統、通知機制）

所謂集羣管理無在乎兩點：是否有機器退出和加入、選舉master。
對於第一點，所有機器約定在父目錄下創建臨時目錄節點，然後監聽父目錄節點的子節點變化消息。一旦有機器掛掉，該機器與 zookeeper的連接斷開，其所創建的臨時目錄節點被刪除，所有其他機器都收到通知：某個兄弟目錄被刪除，於是，所有人都知道：它上船了。
新機器加入也是類似，所有機器收到通知：新兄弟目錄加入，highcount又有了，對於第二點，我們稍微改變一下，所有機器創建臨時順序編號目錄節點，每次選取編號最小的機器作爲master就好。

10.Zookeeper分佈式鎖（文件系統、通知機制）

有了zookeeper的一致性文件系統，鎖的問題變得容易。鎖服務可以分爲兩類，一個是保持獨佔，另一個是控制時序。
對於第一類，我們將zookeeper上的一個znode看作是一把鎖，通過createznode的方式來實現。所有客戶端都去創建 /distribute_lock 節點，最終成功創建的那個客戶端也即擁有了這把鎖。用完刪除掉自己創建的distribute_lock 節點就釋放出鎖。
對於第二類， /distribute_lock 已經預先存在，所有客戶端在它下面創建臨時順序編號目錄節點，和選master一樣，編號最小的獲得鎖，用完刪除，依次方便。

11.獲取分佈式鎖的流程

在獲取分佈式鎖的時候在locker節點下創建臨時順序節點，釋放鎖的時候刪除該臨時節點。客戶端調用createNode方法在locker下創建臨時順序節點，
然後調用getChildren(“locker”)來獲取locker下面的所有子節點，注意此時不用設置任何Watcher。客戶端獲取到所有的子節點path之後，如果發現自己創建的節點在所有創建的子節點序號最小，那麼就認爲該客戶端獲取到了鎖。如果發現自己創建的節點並非locker所有子節點中最小的，說明自己還沒有獲取到鎖，此時客戶端需要找到比自己小的那個節點，然後對其調用exist()方法，同時對其註冊事件監聽器。之後，讓這個被關注的節點刪除，則客戶端的Watcher會收到相應通知，此時再次判斷自己創建的節點是否是locker子節點中序號最小的，如果是則獲取到了鎖，如果不是則重複以上步驟繼續獲取到比自己小的一個節點並註冊監聽。當前這個過程中還需要許多的邏輯判斷。

代碼的實現主要是基於互斥鎖，獲取分佈式鎖的重點邏輯在於BaseDistributedLock，實現了基於Zookeeper實現分佈式鎖的細節。

12.Zookeeper隊列管理（文件系統、通知機制）

兩種類型的隊列：
1、同步隊列，當一個隊列的成員都聚齊時，這個隊列纔可用，否則一直等待所有成員到達。
2、隊列按照 FIFO 方式進行入隊和出隊操作。
第一類，在約定目錄下創建臨時目錄節點，監聽節點數目是否是我們要求的數目。
第二類，和分佈式鎖服務中的控制時序場景基本原理一致，入列有編號，出列按編號。在特定的目錄下創建PERSISTENT_SEQUENTIAL節點，創建成功時Watcher通知等待的隊列，隊列刪除序列號最小的節點用以消費。此場景下Zookeeper的znode用於消息存儲，znode存儲的數據就是消息隊列中的消息內容，SEQUENTIAL序列號就是消息的編號，按序取出即可。由於創建的節點是持久化的，所以不必擔心隊列消息的丟失問題。

13.Zookeeper數據複製

Zookeeper作爲一個集羣提供一致的數據服務，自然，它要在所有機器間做數據複製。數據複製的好處：
1、容錯：一個節點出錯，不致於讓整個系統停止工作，別的節點可以接管它的工作；
2、提高系統的擴展能力：把負載分佈到多個節點上，或者增加節點來提高系統的負載能力；
3、提高性能：讓客戶端本地訪問就近的節點，提高用戶訪問速度。

從客戶端讀寫訪問的透明度來看，數據複製集羣系統分下面兩種：
1、寫主(WriteMaster) ：對數據的修改提交給指定的節點。讀無此限制，可以讀取任何一個節點。這種情況下客戶端需要對讀與寫進行區別，俗稱讀寫分離；
2、寫任意(Write Any)：對數據的修改可提交給任意的節點，跟讀一樣。這種情況下，客戶端對集羣節點的角色與變化透明。

對zookeeper來說，它採用的方式是寫任意。通過增加機器，它的讀吞吐能力和響應能力擴展性非常好，而寫，隨着機器的增多吞吐能力肯定下降（這也是它建立observer的原因），而響應能力則取決於具體實現方式，是延遲複製保持最終一致性，還是立即複製快速響應。

14.Zookeeper工作原理

Zookeeper 的核心是原子廣播，這個機制保證了各個Server之間的同步。實現這個機制的協議叫做Zab協議。Zab協議有兩種模式，它們分別是恢復模式（選主）和廣播模式（同步）。當服務啓動或者在領導者崩潰後，Zab就進入了恢復模式，當領導者被選舉出來，且大多數Server完成了和 leader的狀態同步以後，恢復模式就結束了。狀態同步保證了leader和Server具有相同的系統狀態。

15.Paxos算法& Zookeeper使用協議

Paxos算法是分佈式選舉算法，Zookeeper使用的 ZAB協議（Zookeeper原子廣播），二者有相同的地方，比如都有一個Leader，用來協調N個Follower的運行；Leader要等待超半數的Follower做出正確反饋之後才進行提案；二者都有一個值來代表Leader的週期。不同的地方在於：ZAB用來構建高可用的分佈式數據主備系統（Zookeeper），Paxos是用來構建分佈式一致性狀態機系統。

16.zookeeper是如何保證事務的順序一致性的？

zookeeper採用了遞增的事務Id來標識，所有的proposal（提議）都在被提出的時候加上了zxid，zxid實際上是一個64位的數字，高32位是epoch（時期; 紀元; 世; 新時代）用來標識leader是否發生改變，如果有新的leader產生出來，epoch會自增，低32位用來遞增計數。當新產生proposal的時候，會依據數據庫的兩階段過程，首先會向其他的server發出事務執行請求，如果超過半數的機器都能執行並且能夠成功，那麼就會開始執行。

17.Zookeeper 下 Server工作狀態

每個Server在工作過程中有三種狀態：
LOOKING：當前Server不知道leader是誰，正在搜尋
LEADING：當前Server即爲選舉出來的leader
FOLLOWING：leader已經選舉出來，當前Server與之同步

18.zookeeper是如何選取主leader的？

當leader崩潰或者leader失去大多數的follower，這時zk進入恢復模式，恢復模式需要重新選舉出一個新的leader，讓所有的Server都恢復到一個正確的狀態。Zk的選舉算法有兩種：一種是基於basic paxos實現的，另外一種是基於fast paxos算法實現的。系統默認的選舉算法爲fast paxos。

1、Zookeeper選主流程(basic paxos)
（1）選舉線程由當前Server發起選舉的線程擔任，其主要功能是對投票結果進行統計，並選出推薦的Server；
（2）選舉線程首先向所有Server發起一次詢問(包括自己)；
（3）選舉線程收到回覆後，驗證是否是自己發起的詢問(驗證zxid是否一致)，然後獲取對方的id(myid)，並存儲到當前詢問對象列表中，最後獲取對方提議的leader相關信息(id,zxid)，並將這些信息存儲到當次選舉的投票記錄表中；
（4）收到所有Server回覆以後，就計算出zxid最大的那個Server，並將這個Server相關信息設置成下一次要投票的Server；
（5）線程將當前zxid最大的Server設置爲當前Server要推薦的Leader，如果此時獲勝的Server獲得n/2 + 1的Server票數，設置當前推薦的leader爲獲勝的Server，將根據獲勝的Server相關信息設置自己的狀態，否則，繼續這個過程，直到leader被選舉出來。通過流程分析我們可以得出：要使Leader獲得多數Server的支持，則Server總數必須是奇數2n+1，且存活的Server的數目不得少於n+1. 每個Server啓動後都會重複以上流程。在恢復模式下，如果是剛從崩潰狀態恢復的或者剛啓動的server還會從磁盤快照中恢復數據和會話信息，zk會記錄事務日誌並定期進行快照，方便在恢復時進行狀態恢復。

2、Zookeeper選主流程(basic paxos)
fast paxos流程是在選舉過程中，某Server首先向所有Server提議自己要成爲leader，當其它Server收到提議以後，解決epoch和 zxid的衝突，並接受對方的提議，然後向對方發送接受提議完成的消息，重複這個流程，最後一定能選舉出Leader。

19.Zookeeper同步流程

選完Leader以後，zk就進入狀態同步過程。
1、Leader等待server連接；
2、Follower連接leader，將最大的zxid發送給leader；
3、Leader根據follower的zxid確定同步點；
4、完成同步後通知follower 已經成爲uptodate狀態；
5、Follower收到uptodate消息後，又可以重新接受client的請求進行服務了。

20.分佈式通知和協調

對於系統調度來說：操作人員發送通知實際是通過控制檯改變某個節點的狀態，然後zk將這些變化發送給註冊了這個節點的watcher的所有客戶端。
對於執行情況彙報：每個工作進程都在某個目錄下創建一個臨時節點。並攜帶工作的進度數據，這樣彙總的進程可以監控目錄子節點的變化獲得工作進度的實時的全局情況。

21.機器中爲什麼會有leader？

在分佈式環境中，有些業務邏輯只需要集羣中的某一臺機器進行執行，其他的機器可以共享這個結果，這樣可以大大減少重複計算，提高性能，於是就需要進行leader選舉。

22.zk節點宕機如何處理？

Zookeeper本身也是集羣，推薦配置不少於3個服務器。Zookeeper自身也要保證當一個節點宕機時，其他節點會繼續提供服務。
如果是一個Follower宕機，還有2臺服務器提供訪問，因爲Zookeeper上的數據是有多個副本的，數據並不會丟失；
如果是一個Leader宕機，Zookeeper會選舉出新的Leader。
ZK集羣的機制是隻要超過半數的節點正常，集羣就能正常提供服務。只有在ZK節點掛得太多，只剩一半或不到一半節點能工作，集羣才失效。
所以
3個節點的cluster可以掛掉1個節點(leader可以得到2票>1.5)
2個節點的cluster就不能掛掉任何1個節點了(leader可以得到1票<=1)

23.zookeeper負載均衡和nginx負載均衡區別

zk的負載均衡是可以調控，nginx只是能調權重，其他需要可控的都需要自己寫插件；但是nginx的吞吐量比zk大很多，應該說按業務選擇用哪種方式。

24.zookeeper watch機制

Watch機制官方聲明：一個Watch事件是一個一次性的觸發器，當被設置了Watch的數據發生了改變的時候，則服務器將這個改變發送給設置了Watch的客戶端，以便通知它們。
Zookeeper機制的特點：
1、一次性觸發數據發生改變時，一個watcher event會被髮送到client，但是client只會收到一次這樣的信息。
2、watcher event異步發送watcher的通知事件從server發送到client是異步的，這就存在一個問題，不同的客戶端和服務器之間通過socket進行通信，由於網絡延遲或其他因素導致客戶端在不通的時刻監聽到事件，由於Zookeeper本身提供了ordering guarantee，即客戶端監聽事件後，纔會感知它所監視znode發生了變化。所以我們使用Zookeeper不能期望能夠監控到節點每次的變化。Zookeeper只能保證最終的一致性，而無法保證強一致性。
3、數據監視Zookeeper有數據監視和子數據監視getdata() and exists()設置數據監視，getchildren()設置了子節點監視。
4、註冊watcher getData、exists、getChildren
5、觸發watcher create、delete、setData
6、setData()會觸發znode上設置的data watch（如果set成功的話）。一個成功的create() 操作會觸發被創建的znode上的數據watch，以及其父節點上的child watch。而一個成功的delete()操作將會同時觸發一個znode的data watch和child watch（因爲這樣就沒有子節點了），同時也會觸發其父節點的child watch。
7、當一個客戶端連接到一個新的服務器上時，watch將會被以任意會話事件觸發。當與一個服務器失去連接的時候，是無法接收到watch的。而當client重新連接時，如果需要的話，所有先前註冊過的watch，都會被重新註冊。通常這是完全透明的。只有在一個特殊情況下，watch可能會丟失：對於一個未創建的znode的exist watch，如果在客戶端斷開連接期間被創建了，並且隨後在客戶端連接上之前又刪除了，這種情況下，這個watch事件可能會被丟失。
8、Watch是輕量級的，其實就是本地JVM的Callback，服務器端只是存了是否有設置了Watcher的布爾類型

25.Zookeeper對節點的watch監聽通知是永久的嗎？

不是。官方聲明：一個Watch事件是一個一次性的觸發器，當被設置了Watch的數據發生了改變的時候，則服務器將這個改變發送給設置了Watch的客戶端，以便通知它們。
爲什麼不是永久的，舉個例子，如果服務端變動頻繁，而監聽的客戶端很多情況下，每次變動都要通知到所有的客戶端，這太消耗性能了。一般是客戶端執行getData(“/節點A”,true)，如果節點A發生了變更或刪除，客戶端會得到它的watch事件，但是在之後節點A又發生了變更，而客戶端又沒有設置watch事件，就不再給客戶端發送。