Facebook強一致性鍵值存儲ZippyDB架構簡介

原創

2021-10-11 20:18

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Facebook工程團隊最近發佈了一篇博客文章，"},{"type":"link","attrs":{"href":"https:\/\/engineering.fb.com\/2021\/08\/06\/core-data\/zippydb\/","title":null,"type":null},"content":[{"type":"text","text":"闡述瞭如何構建其通用的鍵值存儲的"}]},{"type":"text","text":"，也就是ZippyDB。ZippyDB是Facebook最大的鍵值存儲，已經投入生產環境超過了六年的時間。它爲應用程序在各個方面提供了靈活性，包括可調整的持久性、一致性、可用性以及低延遲保證等方面。ZippyDB的使用場景包括分佈式文件系統的元數據、用於內部和外部目的的事件計數，以及用於各種應用特性的產品數據。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Facebook的軟件工程師Sarang Masti對創建ZippyDB的動機進行了深入分析："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZippyDB使用"},{"type":"link","attrs":{"href":"http:\/\/rocksdb.org\/","title":null,"type":null},"content":[{"type":"text","text":"RocksDB"}]},{"type":"text","text":"作爲底層的存儲引擎。在ZippyDB之前，Facebook的各個團隊都直接使用RocksDB來管理他們的數據。這導致每個團隊在解決類似的挑戰時造成了工作的重複，比如一致性、容錯、故障恢復、副本以及容量管理等。爲了解決這些不同團隊的需求，我們創建了ZippyDB，以提供一個高度持久化和一致性的鍵值數據存儲，通過將所有的數據轉移到ZippyDB上並解決管理這種數據相關的挑戰，大大提升了產品開發的速度。"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"一個ZippyDB部署（叫做“tier”）由分佈到全世界範圍多個區域（region）的計算和存儲資源組成。每個部署都以多租戶的方式託管多個用例。ZippyDB會將屬於某個用例的數據劃分爲分片（shard）。根據配置，它會跨多個區域爲每個分片創建副本，從而實現容錯性，這個過程可以使用"},{"type":"link","attrs":{"href":"https:\/\/en.wikipedia.org\/wiki\/Paxos_%28computer_science%29","title":null,"type":null},"content":[{"type":"text","text":"Paxos"}]},{"type":"text","text":"或異步副本來實現。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/imgopt.infoq.com\/fit-in\/1200x2400\/filters:quality(80)\/filters:no_upscale()\/news\/2021\/09\/facebook-zippydb\/en\/resources\/1ZippyDb-Architecture-1631795724578.jpg","alt":"","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"圖片來源："},{"type":"link","attrs":{"href":"https:\/\/engineering.fb.com\/2021\/08\/06\/core-data\/zippydb\/","title":null,"type":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"https:\/\/engineering.fb.com\/2021\/08\/06\/core-data\/zippydb\/"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"每個分片副本的子集都是某個"},{"type":"link","attrs":{"href":"https:\/\/en.wikipedia.org\/wiki\/Quorum_%28distributed_computing%29","title":null,"type":null},"content":[{"type":"text","text":"quorum"}]},{"type":"text","text":"組的一部分，在這裏數據會被同步複製，從而能夠在出現故障的時候提供高持久性和可用性。如果以follower的形式配置了其他副本的話，將會採用異步複製的方式。Follower能夠讓應用程序擁有多個區域內的副本以支持寬鬆一致性的低延遲讀取，同時能夠保持較小的quorum大小以實現更低的寫入延遲。這種分片內副本角色配置的靈活性能夠讓應用程序根據自身的需要平衡持久性、寫入的性能和讀取的性能。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZippyDB爲應用程序提供了可配置的一致性和持久性等級，它們可以在讀取和寫入API中以可選項的形式進行指定。對於寫入來講，ZippyDB默認會將數據持久化到大多數副本的Paxos的日誌中並將數據寫入到主RocksDB上。這樣的話，對於主節點的讀取能夠始終看到最新的寫入。除此之外，它還支持一個更低延遲的快速確認（fast-acknowledge）模式，在這種模式下，在主節點上排隊進行副本操作的時候，寫入就會進行確認。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於讀取來講，ZippyDB支持最終一致、讀取自己的寫入（read-your-write，該模式指的是系統能夠保證一旦某個條目被更新，同一個客戶端發起的任意讀取請求都會返回更新後的數據，參見該"},{"type":"link","attrs":{"href":"https:\/\/arpitbhayani.me\/blogs\/read-your-write-consistency","title":null,"type":null},"content":[{"type":"text","text":"文章"}]},{"type":"text","text":"的闡述——譯者注）和強讀模式。“對於‘讀取自己的寫入’模式，客戶端會緩存服務器在進行寫入時得到的最新序列號，並且會在隨後的讀取查詢中使用該版本號”。ZippyDB在實現強讀取的時候，會將讀取操作路由到主節點上，從而避免與quorum進行對話。“在某些極端的情況下，主節點尚未得到更新的消息，這時候對主節點的強讀就變成了對quorum的檢查和讀取。”"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/imgopt.infoq.com\/fit-in\/1200x2400\/filters:quality(80)\/filters:no_upscale()\/news\/2021\/09\/facebook-zippydb\/en\/resources\/1ZippyDB-Transactions-1631795724578.jpg","alt":"","title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"圖片來源："},{"type":"link","attrs":{"href":"https:\/\/engineering.fb.com\/2021\/08\/06\/core-data\/zippydb\/","title":null,"type":null},"content":[{"type":"text","marks":[{"type":"italic"}],"text":"https:\/\/engineering.fb.com\/2021\/08\/06\/core-data\/zippydb\/"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZippyDB支持事務和條件性的寫入，從而能夠適用於要對一組鍵進行原子讀取-修改-寫入操作的使用場景。Masti介紹了ZippyDB的實現："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"所有事務在分片上默認是序列化的，我們不支持更低的隔離級別。這簡化了服務器端的實現，並且便於在客戶端推斷出並行執行事務的正確性。事務使用"},{"type":"link","attrs":{"href":"https:\/\/dl.acm.org\/doi\/10.1145\/568271.223787","title":null,"type":null},"content":[{"type":"text","text":"樂觀併發控制"}]},{"type":"text","text":"來探測和解決衝突，作用原理如上圖所示。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZippyDB中的分片，通常被稱爲物理分片或p分片，是服務器側的數據管理單位。應用程序將其核心空間（key space）劃分爲μshard（微分片）。每個p-shard通常託管着幾萬個μshard。根據Masti的說法，“這個額外的抽象層允許ZippyDB在客戶端不做任何改變的情況下透明地重新分片（reshard）數據”。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZippyDB利用"},{"type":"link","attrs":{"href":"https:\/\/engineering.fb.com\/2018\/10\/08\/core-data\/akkio\/","title":null,"type":null},"content":[{"type":"text","text":"Akkio"}]},{"type":"text","text":"實現p-shard和μshard之間的映射，從而得到了進一步優化。Akkio將μshard放置在信息通常被訪問的地理區域。通過這種方式，Akkio有助於減少數據集的重複，這樣就爲低延遲訪問提供一個比在每個區域放置數據更有效的解決方案。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"原文鏈接："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https:\/\/www.infoq.com\/news\/2021\/09\/facebook-zippydb\/","title":null,"type":null},"content":[{"type":"text","text":"ZippyDB: The Architecture of Facebook’s Strongly Consistent Key-Value Store"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

入職3年-我如何做一名AI產品經理

引言從2021年校招加入京東開始，我一直從事AI產品經理的工作，有幸見證了AI行業的熱情從一臺臺服務器燒到了全世界各個角落，也見證了京東AI中臺團隊的影響力如何一步步的擴大。從21年的迷茫到24年的堅定，很慶幸我正走在適合自己的道路上，

2024-04-22 11:16:31

寫給職場新人｜從迷茫到屢獲殊榮的技術人成長之路

在這個時代，技術的每一次飛躍都在重塑我們的工作方式。借Up技術人專欄活動寫了這篇文章，回望一下我和計算機打交道的這幾年，希望能給學生或職場新人們一些幫助。 1.錨定方向：學生生涯的一次探險如果用一個詞語概括我的本科階段，那大概就

2024-04-19 23:17:23

Create 2024 分論壇：百度大模型安全解決方案護航開發者一起創造未來

4月16日，百度Create AI開發者大會在深圳國際會展中心（寶安）舉行，大會以“創造未來”爲主題，匯聚了當前科技和產業革命中的開發者先鋒力量。自去年3月16日發佈知識增強大語言模型文心一言以來，百度不斷推動文心大模型的升級迭代，每一次版

2024-04-19 21:33:25

京東內部研效架構師訓練營，首次對外公開課，不可錯過的研效之旅！

五月繁花似錦，讓我們帶你走進京東，開啓研效實戰之旅！四大單位聯合發起本次活動由“全國雲計算技術行業產教融合共同體”發起，聯合工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會、京東雲共同主辦，重磅推出“卓越研效架構師”

京東雲開發者

2024-04-19 11:16:30

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

近日，Milvus 老友匯·Arch Meetup 在深圳圓滿落幕。本次 Meetup 由 Milvus 社區攜手 Shopee 共同舉辦，同時還邀請到來自 AWS、點石科技的技術專家，分享電商行業、RAG 場景、AI 平臺等如何基

2024-04-17 21:20:23

DDD落地指南-架構師眼中的餐廳

在去年、我整理了一篇名爲《如何做架構設計？》的文章，主要探討了架構設計的目標和過程，然而、那是一篇概括性的文章，用於啓發思路，並不是具體的實踐指南，因此、我一直期望給出具體參考案例。我幾乎忘了這件事，如今回顧、我發現並沒有合適的案例可供參

2024-04-16 11:16:34

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

爲什麼向量數據庫在 RAG 中至關重要？

什麼是向量數據庫？一個專業的向量數據庫究竟是如何運轉的？它又是如何爲產業賦能的？開箱即用的雲原生向量數據庫該怎麼用？答案就在**《Deep Dive 特別專題——Zilliz Cloud 》**！第 1 期的主題便是熱度居高不下的 RA

2024-04-11 21:20:23

擁抱AI浪潮，掌握提升十倍生產力的祕訣！

引言自 2022 年 ChatGPT 的橫空出世以來，人工智能領域迎來了一波創新的高潮。AI Agent、Copilot、Sora 等工具以其顯著提升生產力的能力，迅速成爲開發者關注的焦點。AI 技術是否會引發新一輪的

2024-04-03 23:09:32

AI、腦機接口、大數據，騰訊雲攜手行業領袖共探新一代數字化轉型

引言在數字化轉型的浪潮中，企業正面臨着前所未有的機遇與挑戰。這場轉型，既是技術的革新，也是管理和運營模式的徹底重塑。隨着人工智能、雲計算、大數據等技術的成熟和普及，它們如何實現從理論到實踐的躍遷，如何在企業中發揮最大價值，成爲了業界

2024-03-28 12:05:21

華爲雲亮相KubeCon EU 2024，以持續開源創新開啓智能時代

本文分享自華爲雲社區《華爲雲亮相KubeCon EU 2024，以持續開源創新開啓智能時代》，作者：華爲雲頭條。近日，在巴黎舉辦的雲原生頂級峯會KubeCon EU 2024上，華爲雲首席架構師顧炯炯在“Cloud Native x

2024-03-26 23:37:36

七大年度獎項揭曉！40+優秀白帽齊聚百度安全BSRC年度盛典

2024年3月16日，「海有界 AI無涯」百度安全2023 BSRC年度盛典頒獎儀式在馬來西亞沙巴圓滿收官，多位安全領域專家、行業領袖出席，並與40多位優秀白帽代表們共同見證了2023年度BSRC七大年度重磅獎項的揭曉。 BSRC年度盛典

2024-03-22 09:37:42

運維人少，如何批量管理上百個微服務、上千條流水線？

作者：周靜隨着微服務和雲原生技術的發展，一個業務系統往往由多個微服務應用組成，多個業務方向涉及幾十上百應用。每個應用研發過程又劃分爲測試、預發、生產多條流水線，也即成百上千條流水線。而一個企業下通常只有 1～2 個運維或架構師負責這些應用

2024-03-21 21:13:40

iLogtail 2.0 來了；通義靈碼下載量破百萬丨阿里云云原生 2 月產品月報

雲原生月度動態雲原生是企業數字創新的最短路徑。《阿里云云原生每月動態》，從趨勢熱點、產品新功能、服務客戶、開源與開發者動態等方面，爲企業提供數字化的路徑與指南。趨勢熱點 🥇 雲原生可觀測團隊獲選「InfoQ 年度技術內容貢獻獎」近期

2024-03-20 21:12:12

解密通義靈碼：軟件研發工具的“大腦”

QCon 全球軟件開發大會是由極客邦科技旗下 InfoQ 中國主辦的綜合性技術盛會，每年在倫敦、北京、紐約、聖保羅、上海、舊金山召開。當前，大模型技術正引領軟件開發範式的革新，重塑生產關係。在此激變之中，QCon 以“全面進化”作爲 20

2024-03-20 21:12:09

24小時熱門文章

最新文章

最新評論文章