大資料入門之zookeeper的功能及工作原理，完結版

本文接“上文”繼續講解zookeeper相關的技術點，所以序號接上文。

想了解大資料其他知識點可以點選文章末尾

“瞭解更多”

檢視

11.分散式與資料複製

Zookeeper作為一個叢集提供一致的資料服務，自然，它要在所有機器間做資料複製。資料複製的好處：

（1）、容錯：

一個節點出錯，不致於讓整個系統停止工作，別的節點可以接管它的工作；

（2）、提高系統的擴充套件能力：

把負載分佈到多個節點上，或者增加節點來提高系統的負載能力；

（3）、提高效能：

讓客戶端本地訪問就近的節點，提高使用者訪問速度。

從客戶端讀寫訪問的透明度來看，資料複製集群系統分下面兩種：

（1）、寫主(WriteMaster) ：

對資料的修改提交給指定的節點。讀無此限制，可以讀取任何一個節點。這種情況下客戶端需要對讀與寫進行區別，俗稱讀寫分離；

（2）、寫任意(Write Any)：

對資料的修改可提交給任意的節點，跟讀一樣。這種情況下，客戶端對叢集節點的角色與變化透明。

對zookeeper來說，它採用的方式是寫任意。透過增加機器，它的讀吞吐能力和響應能力擴充套件性非常好，而寫，隨著機器的增多吞吐能力肯定下降（這也是它建立observer的原因），而響應能力則取決於具體實現方式，是延遲複製保持最終一致性，還是立即複製快速響應。

12.Zookeeper角色描述

13.Zookeeper與客戶端

14.Zookeeper設計目的

（1）.最終一致性：

client不論連線到哪個Server，展示給它都是同一個檢視，這是zookeeper最重要的效能。

（2）.可靠性：

具有簡單、健壯、良好的效能，如果訊息被到一臺伺服器接受，那麼它將被所有的伺服器接受。

（3）.實時性：

Zookeeper保證客戶端將在一個時間間隔範圍內獲得伺服器的更新資訊，或者伺服器失效的資訊。但由於網路延時等原因，Zookeeper不能保證兩個客戶端能同時得到剛更新的資料，如果需要最新資料，應該在讀資料之前呼叫sync（）介面。

（4）.等待無關（wait-free）：

慢的或者失效的client不得干預快速的client的請求，使得每個client都能有效的等待。

（5）.原子性：

更新只能成功或者失敗，沒有中間狀態。

（6）.順序性：

包括全域性有序和偏序兩種：全域性有序是指如果在一臺伺服器上訊息a在訊息b前釋出，則在所有Server上訊息a都將在訊息b前被髮布；偏序是指如果一個訊息b在訊息a後被同一個傳送者釋出，a必將排在b前面。

15.Zookeeper工作原理

Zookeeper 的核心是原子廣播，這個機制保證了各個Server之間的同步。實現這個機制的協議叫做Zab協議。Zab協議有兩種模式，它們分別是恢復模式（選主）和廣播模式（同步）。當服務啟動或者在領導者崩潰後，Zab就進入了恢復模式，當領導者被選舉出來，且大多數Server完成了和 leader的狀態同步以後，恢復模式就結束了。狀態同步保證了leader和Server具有相同的系統狀態。

為了保證事務的順序一致性，zookeeper採用了遞增的事務id號（zxid）來標識事務。所有的提議（proposal）都在被提出的時候加上了zxid。實現中zxid是一個64位的數字，它高32位是epoch用來標識leader關係是否改變，每次一個leader被選出來，它都會有一個新的epoch，標識當前屬於那個leader的統治時期。低32位用於遞增計數。

16.Zookeeper下Server工作狀態

每個Server在工作過程中有三種狀態：

LOOKING：

當前Server不知道leader是誰，正在搜尋

LEADING：

當前Server即為選舉出來的leader

FOLLOWING：

leader已經選舉出來，當前Server與之同步

17.Zookeeper選主流程baiscpaxos

當leader崩潰或者leader失去大多數的follower，這時候zk進入恢復模式，恢復模式需要重新選舉出一個新的leader，讓所有的Server都恢復到一個正確的狀態。Zk的選舉演算法有兩種：一種是基於basic paxos實現的，另外一種是基於fast paxos演算法實現的。系統預設的選舉演算法為fast paxos。

（1）。選舉執行緒由當前Server發起選舉的執行緒擔任，其主要功能是對投票結果進行統計，並選出推薦的Server；

（2）。選舉執行緒首先向所有Server發起一次詢問（包括自己）；

（3）。選舉執行緒收到回覆後，驗證是否是自己發起的詢問（驗證zxid是否一致），然後獲取對方的id（myid），並存儲到當前詢問物件列表中，最後獲取對方提議的leader相關資訊（id，zxid），並將這些資訊儲存到當次選舉的投票記錄表中；

（4）。收到所有Server回覆以後，就計算出zxid最大的那個Server，並將這個Server相關資訊設定成下一次要投票的Server；

（5）。執行緒將當前zxid最大的Server設定為當前Server要推薦的Leader，如果此時獲勝的Server獲得n/2 + 1的Server票數，設定當前推薦的leader為獲勝的Server，將根據獲勝的Server相關資訊設定自己的狀態，否則，繼續這個過程，直到leader被選舉出來。透過流程分析我們可以得出：要使Leader獲得多數Server的支援，則Server總數必須是奇數2n+1，且存活的Server的數目不得少於n+1。每個Server啟動後都會重複以上流程。在恢復模式下，如果是剛從崩潰狀態恢復的或者剛啟動的server還會從磁碟快照中恢復資料和會話資訊，zk會記錄事務日誌並定期進行快照，方便在恢復時進行狀態恢復。選主的具體流程圖所示：

18.Zookeeeper選主流程fastpaxos

fast paxos流程是在選舉過程中，某Server首先向所有Server提議自己要成為leader，當其它Server收到提議以後，解決epoch和 zxid的衝突，並接受對方的提議，然後向對方傳送接受提議完成的訊息，重複這個流程，最後一定能選舉出Leader。