Facebook數據倉庫揭祕：RCFile高效存儲結構

摘要：本文介紹了Facebook公司數據分析系統中的RCFile存儲結構，該結構集行存儲和列存儲的優點於一身，在MapReduce環境下的大規模數據分析中扮演重要角色。 Facebook曾在2010 ICDE（IEEE International Confere

本文介紹了Facebook公司數據分析系統中的RCFile存儲結構，該結構集行存儲和列存儲的優點於一身，在MapReduce環境下的大規模數據分析中扮演重要角色。

Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）會議上介紹了數據倉庫Hive。Hive存儲海量數據在Hadoop系統中，提供了一套類數據庫的數據存儲和處理機制。它採用類SQL語言對數據進行自動化管理和處理，經過語句解析和轉換，最終生成基於Hadoop的MapReduce任務，通過執行這些任務完成數據處理。圖1顯示了Hive數據倉庫的系統結構。

圖1 Hive數據倉庫的系統結構

基於MapReduce的數據倉庫在超大規模數據分析中扮演了重要角色，對於典型的Web服務供應商，這些分析有助於它們快速理解動態的用戶行爲及變化的用戶需求。數據存儲結構是影響數據倉庫性能的關鍵因素之一。Hadoop系統中常用的文件存儲格式有支持文本的TextFile和支持二進制的SequenceFile等，它們都屬於行存儲方式。Facebook工程師發表的RCFile: A Fast and Spaceefficient Data Placement Structure in MapReducebased Warehouse Systems一文，介紹了一種高效的數據存儲結構——RCFile（Record Columnar File），並將其應用於Facebook的數據倉庫Hive中。與傳統數據庫的數據存儲結構相比，RCFile更有效地滿足了基於MapReduce的數據倉庫的四個關鍵需求，即Fast data loading、Fast query processing、Highly efficient storage space utilization和Strong adaptivity to highly dynamic workload patterns。

數據倉庫的需求

基於Facebook系統特徵和用戶數據的分析，在MapReduce計算環境下，數據倉庫對於數據存儲結構有四個關鍵需求。

Fast data loading

對於Facebook的產品數據倉庫而言，快速加載數據（寫數據）是非常關鍵的。每天大約有超過20TB的數據上傳到Facebook的數據倉庫，由於數據加載期間網絡和磁盤流量會干擾正常的查詢執行，因此縮短數據加載時間是非常必要的。

Fast query processing

爲了滿足實時性的網站請求和支持高併發用戶提交查詢的大量讀負載，查詢響應時間是非常關鍵的，這要求底層存儲結構能夠隨着查詢數量的增加而保持高速的查詢處理。

Highly efficient storage space utilization

高速增長的用戶活動總是需要可擴展的存儲容量和計算能力，有限的磁盤空間需要合理管理海量數據的存儲。實際上，該問題的解決方案就是最大化磁盤空間利用率。

Strong adaptivity to highly dynamic workload patterns

同一份數據集會供給不同應用的用戶，通過各種方式來分析。某些數據分析是例行過程，按照某種固定模式週期性執行；而另一些則是從中間平臺發起的查詢。大多數負載不遵循任何規則模式，這需要底層系統在存儲空間有限的前提下，對數據處理中不可預知的動態數據具備高度的適應性，而不是專注於某種特殊的負載模式。

MapReduce存儲策略

要想設計並實現一種基於MapReduce數據倉庫的高效數據存儲結構，關鍵挑戰是在MapReduce計算環境中滿足上述四個需求。在傳統數據庫系統中，三種數據存儲結構被廣泛研究，分別是行存儲結構、列存儲結構和PAX混合存儲結構。上面這三種結構都有其自身特點，不過簡單移植這些數據庫導向的存儲結構到基於MapReduce的數據倉庫系統並不能很好地滿足所有需求。

行存儲

如圖2所示，基於Hadoop系統行存儲結構的優點在於快速數據加載和動態負載的高適應能力，這是因爲行存儲保證了相同記錄的所有域都在同一個集羣節點，即同一個HDFS塊。不過，行存儲的缺點也是顯而易見的，例如它不能支持快速查詢處理，因爲當查詢僅僅針對多列表中的少數幾列時，它不能跳過不必要的列讀取；此外，由於混合着不同數據值的列，行存儲不易獲得一個極高的壓縮比，即空間利用率不易大幅提高。儘管通過熵編碼和利用列相關性能夠獲得一個較好的壓縮比，但是複雜數據存儲實現會導致解壓開銷增大。

圖2 HDFS塊內行存儲的例子

列存儲

圖3顯示了在HDFS上按照列組存儲表格的例子。在這個例子中，列A和列B存儲在同一列組，而列C和列D分別存儲在單獨的列組。查詢時列存儲能夠避免讀不必要的列，並且壓縮一個列中的相似數據能夠達到較高的壓縮比。然而，由於元組重構的較高開銷，它並不能提供基於Hadoop系統的快速查詢處理。列存儲不能保證同一記錄的所有域都存儲在同一集羣節點，例如圖2的例子中，記錄的4個域存儲在位於不同節點的3個HDFS塊中。因此，記錄的重構將導致通過集羣節點網絡的大量數據傳輸。儘管預先分組後，多個列在一起能夠減少開銷，但是對於高度動態的負載模式，它並不具備很好的適應性。除非所有列組根據可能的查詢預先創建，否則對於一個查詢需要一個不可預知的列組合，一個記錄的重構或許需要2個或多個列組。再者由於多個組之間的列交疊，列組可能會創建多餘的列數據存儲，這導致存儲利用率的降低。

圖3 HDFS塊內列存儲的例子

PAX混合存儲

PAX存儲模型（用於Data Morphing存儲技術）使用混合存儲方式，目的在於提升CPU Cache性能。對於記錄中來自不同列的多個域，PAX將它們放在一個磁盤頁中。在每個磁盤頁中，PAX使用一個迷你頁來存儲屬於每個列的所有域，並使用一個頁頭來存儲迷你頁的指針。類似於行存儲，PAX對多種動態查詢有很強的適應能力。然而，它並不能滿足大型分佈式系統對於高存儲空間利用率和快速查詢處理的需求，原因在於：首先，PAX沒有數據壓縮的相關工作，這部分與Cache優化關係不大，但對於大規模數據處理系統是非常關鍵的，它提供了列維度數據壓縮的可能性；其次，PAX不能提升I/O性能，因爲它不能改變實際的頁內容，該限制使得大規模數據掃描時不易實現快速查詢處理；再次，PAX用固定的頁作爲數據組織的基本單位，按照這個大小，在海量數據處理系統中，PAX將不會有效存儲不同大小類型的數據域。本文介紹的是RCF i l e 數據存儲結構在Hadoop系統上的實現。該結構強調：第一，RCFile存儲的表是水平劃分的，分爲多個行組，每個行組再被垂直劃分，以便每列單獨存儲；第二，RCFile在每個行組中利用一個列維度的數據壓縮，並提供一種Lazy解壓（decompression）技術來在查詢執行時避免不必要的列解壓；第三，RCFile支持彈性的行組大小，行組大小需要權衡數據壓縮性能和查詢性能兩方面。

RCFile的設計與實現

RCFile（Record Columnar File）存儲結構遵循的是“先水平劃分，再垂直劃分”的設計理念，這個想法來源於PAX。它結合了行存儲和列存儲的優點：首先，RCFile保證同一行的數據位於同一節點，因此元組重構的開銷很低；其次，像列存儲一樣，RCFile能夠利用列維度的數據壓縮，並且能跳過不必要的列讀取。圖4是一個HDFS塊內RCFile方式存儲的例子。

圖4 HDFS塊內RCFile方式存儲的例子

數據格式

RCFile在HDFS分佈式文件系統之上設計並實現，如圖4所示，RCFile按照下面的數據格式來存儲一張表。

RCFile基於HDFS架構，表格佔用多個HDFS塊。

每個HDFS塊中，RCFile以行組爲基本單位來組織記錄。也就是說，存儲在一個HDFS塊中的所有記錄被劃分爲多個行組。對於一張表，所有行組大小都相同。一個HDFS塊會有一個或多個行組。

一個行組包括三個部分。第一部分是行組頭部的同步標識，主要用於分隔HDFS塊中的兩個連續行組；第二部分是行組的元數據頭部，用於存儲行組單元的信息，包括行組中的記錄數、每個列的字節數、列中每個域的字節數；第三部分是表格數據段，即實際的列存儲數據。在該部分中，同一列的所有域順序存儲。從圖4可以看出，首先存儲了列A的所有域，然後存儲列B的所有域等。

壓縮方式

RCFile的每個行組中，元數據頭部和表格數據段分別進行壓縮。

對於所有元數據頭部，RCFile使用RLE（Run Length Encoding）算法來壓縮數據。由於同一列中所有域的長度值都順序存儲在該部分，RLE算法能夠找到重複值的長序列，尤其對於固定的域長度。

表格數據段不會作爲整個單元來壓縮；相反每個列被獨立壓縮，使用Gzip壓縮算法。RCFile使用重量級的Gzip壓縮算法，是爲了獲得較好的壓縮比，而不使用RLE算法的原因在於此時列數據非排序。此外，由於Lazy壓縮策略，當處理一個行組時，RCFile不需要解壓所有列。因此，相對較高的Gzip解壓開銷可以減少。

儘管RCFile對錶格數據的所有列使用同樣的壓縮算法，不過如果使用不同的算法來壓縮不同列或許效果會更好。RCFile將來的工作之一可能就是根據每列的數據類型和數據分佈來自適應選擇最好的壓縮算法。

數據追加

RCFile不支持任意方式的數據寫操作，僅提供一種追加接口，這是因爲底層的HDFS當前僅僅支持數據追加寫文件尾部。數據追加方法描述如下。

RCFile爲每列創建並維護一個內存column holder，當記錄追加時，所有域被分發，每個域追加到其對應的column holder。此外，RCFile在元數據頭部中記錄每個域對應的元數據。

RCFile提供兩個參數來控制在刷寫到磁盤之前，內存中緩存多少個記錄。一個參數是記錄數的限制，另一個是內存緩存的大小限制。

RCFile首先壓縮元數據頭部並寫到磁盤，然後分別壓縮每個column holder，並將壓縮後的column holder刷寫到底層文件系統中的一個行組中。

數據讀取和Lazy解壓

在MapReduce框架中，mapper將順序處理HDFS塊中的每個行組。當處理一個行組時，RCFile無需全部讀取行組的全部內容到內存。

相反，它僅僅讀元數據頭部和給定查詢需要的列。因此，它可以跳過不必要的列以獲得列存儲的I/O優勢。例如，表tbl(c1, c2, c3, c4)有4個列，做一次查詢“SELECT c1 FROM tbl WHERE c4 = 1”，對每個行組，RCFile僅僅讀取c1和c4列的內容。在元數據頭部和需要的列數據加載到內存中後，它們需要解壓。元數據頭部總會解壓並在內存中維護直到RCFile處理下一個行組。然而，RCFile不會解壓所有加載的列，相反，它使用一種Lazy解壓技術。

Lazy解壓意味着列將不會在內存解壓，直到RCFile決定列中數據真正對查詢執行有用。由於查詢使用各種WHERE條件，Lazy解壓非常有用。如果一個WHERE條件不能被行組中的所有記錄滿足，那麼RCFile將不會解壓WHERE條件中不滿足的列。例如，在上述查詢中，所有行組中的列c4都解壓了。然而，對於一個行組，如果列c4中沒有值爲1的域，那麼就無需解壓列c1。

行組大小

I/O性能是RCFile關注的重點，因此RCFile需要行組夠大並且大小可變。行組大小和下面幾個因素相關。

行組大的話，數據壓縮效率會比行組小時更有效。根據對Facebook日常應用的觀察，當行組大小達到一個閾值後，增加行組大小並不能進一步增加Gzip算法下的壓縮比。

行組變大能夠提升數據壓縮效率並減少存儲量。因此，如果對縮減存儲空間方面有強烈需求，則不建議選擇使用小行組。需要注意的是，當行組的大小超過4MB，數據的壓縮比將趨於一致。

儘管行組變大有助於減少表格的存儲規模，但是可能會損害數據的讀性能，因爲這樣減少了Lazy解壓帶來的性能提升。而且行組變大會佔用更多的內存，這會影響併發執行的其他MapReduce作業。考慮到存儲空間和查詢效率兩個方面，Facebook選擇4MB作爲默認的行組大小，當然也允許用戶自行選擇參數進行配置。

小結

本文簡單介紹了RCFile存儲結構，其廣泛應用於Facebook公司的數據分析系統Hive中。首先，RCFile具備相當於行存儲的數據加載速度和負載適應能力；其次，RCFile的讀優化可以在掃描表格時避免不必要的列讀取，測試顯示在多數情況下，它比其他結構擁有更好的性能；再次，RCFile使用列維度的壓縮，因此能夠有效提升存儲空間利用率。

爲了提高存儲空間利用率，Facebook各產品線應用產生的數據從2010年起均採用RCFile結構存儲，按行存儲（SequenceFile/TextFile）結構保存的數據集也轉存爲RCFile格式。此外，Yahoo公司也在Pig數據分析系統中集成了RCFile，RCFile正在用於另一個基於Hadoop的數據管理系統Howl（http://wiki.apache.org/pig/Howl）。而且，根據Hive開發社區的交流，RCFile也成功整合加入其他基於MapReduce的數據分析平臺。有理由相信，作爲數據存儲標準的RCFile，將繼續在MapReduce環境下的大規模數據分析中扮演重要角色。

Facebook數據倉庫揭祕：RCFile高效存儲結構

科普Spark，Spark是什麼，如何使用Spark

安全科普：什麼是暴力破解攻擊？如何檢測和防禦？

揭祕阿里CDN核心技術（http://wenku.baidu.com/view/ffc63474b4daa58da1114a45.html?re=view）

什麼是IndexedDB：Web離線數據庫入門簡介及基礎教程

開放創新的華爲存儲更加堅定業務驅動步伐

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結