大數據存儲平臺之異構存儲實踐深度解讀

經常做數據處理的夥伴們肯定會有這樣一種體會:最近一週內的數據會被經常使用到,而比如最近幾周的數據使用率會有下降,每週僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑,存儲的數據可能一個月才被訪問幾次。

大數據存儲平臺之異構存儲實踐深度解讀

這就產生了一種熱和冷數據,對需要頻繁訪問的數據我們稱之爲“熱”數據,反之我們稱之爲”冷”數據,而處於中間的數據我們稱之爲”溫”數據。如果你想了解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加羣:806025609.歡迎你的加入。

在數據被視爲公司資產的時代,每個公司基本都會保存最近數年的數據,而這些數據尤其是冷數據的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些“負擔”。

首先如何定義數據爲冷熱數據呢,eBay公司根據數據年齡和使用頻率來定義不失爲一種辦法,下圖爲eBay關於數據溫度的定義

大數據存儲平臺之異構存儲實踐深度解讀

從hadoop2.6開始,HDFS更好的支持了這種冷熱數據的分離存儲,我們可以按HDFS路徑指定其存儲策略,目前HDFS支持的存儲策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們着重介紹SSD相關的存儲策略,具體如下:

  • All_SSD - 用於將所有副本存儲在SSD中
  • One_SSD - 用於將其中一個副本存儲在SSD中。剩餘的副本存儲在DISK中
  • Lazy_Persist - 用於在內存中寫入單個副本的塊。該副本首先寫入RAM_DISK,然後在DISK中延續

創建文件或目錄時,其存儲策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。

  1. 如果文件或目錄特定於存儲策略,則返回。
  2. 對於未指定的文件或目錄,如果是根目錄,則返回默認存儲策略。否則,返回其父級的有效存儲策略。

我們在實踐過程中,因爲有一部分實時分析的需求,一部分是歷史數據的保存,歷史數據很少參與計算,只需偶爾查詢會用到。那麼對於歷史數據來說,我們可以使用一批計算能力較弱,而硬盤較多、容量較大的SATA盤,而實時分析的場景,需要高性能的計算力和硬盤吞吐能力,我們選用SSD硬盤來支撐,此外HDFS還提供了內存存儲類型,但我們的內存還是有限,暫未使用到。實際上,我們的每臺服務器的12塊硬盤slot中有3個是SSD,其餘9個是SATA。我們實踐結果表明,使用這種策略的效果比以前好了4倍以上。

要使用存儲策略,我們需要在在每個數據節點上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如:

  1. 使用[DISK]file:///dfs/dn來標識這個存儲位置爲普通硬盤
  2. 使用[SSD]file:/// dfs/dn來標識這個存儲位置爲SSD硬盤

此外,默認情況下的存儲格式爲DISK。

下面介紹設置存儲策略命令:

  1. hdfsstoragepolicies -setStoragePolicy -path -policy 

相應的獲取存儲策略命令爲:

  1. hdfs storagepolicies -getStoragePolicy -path 

總結下:我們可以在一個限定的Hadoop集羣中進行設置不同的磁盤使用不同的存儲策略,還可以利用API將數據存儲到不同的存儲層。HDFS設計的詳細存儲類型和存儲策略如下表,有興趣的同學可以看看:

大數據存儲平臺之異構存儲實踐深度解讀

注:HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的 計算能力,用於歸檔數據使用,從上圖可以看出冷數據適合使用archive存儲類型。

經常做數據處理的夥伴們肯定會有這樣一種體會:最近一週內的數據會被經常使用到,而比如最近幾周的數據使用率會有下降,每週僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑,存儲的數據可能一個月才被訪問幾次。

大數據存儲平臺之異構存儲實踐深度解讀

這就產生了一種熱和冷數據,對需要頻繁訪問的數據我們稱之爲“熱”數據,反之我們稱之爲”冷”數據,而處於中間的數據我們稱之爲”溫”數據。如果你想了解大數據的學習路線,想學習大數據知識以及需要免費的學習資料可以加羣:784789432.歡迎你的加入。每天下午三點開直播分享基礎知識,晚上20:00都會開直播給大家分享大數據項目實戰。

在數據被視爲公司資產的時代,每個公司基本都會保存最近數年的數據,而這些數據尤其是冷數據的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些“負擔”。

首先如何定義數據爲冷熱數據呢,eBay公司根據數據年齡和使用頻率來定義不失爲一種辦法,下圖爲eBay關於數據溫度的定義

大數據存儲平臺之異構存儲實踐深度解讀

從hadoop2.6開始,HDFS更好的支持了這種冷熱數據的分離存儲,我們可以按HDFS路徑指定其存儲策略,目前HDFS支持的存儲策略有:HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們着重介紹SSD相關的存儲策略,具體如下:

  • All_SSD - 用於將所有副本存儲在SSD中
  • One_SSD - 用於將其中一個副本存儲在SSD中。剩餘的副本存儲在DISK中
  • Lazy_Persist - 用於在內存中寫入單個副本的塊。該副本首先寫入RAM_DISK,然後在DISK中延續

創建文件或目錄時,其存儲策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。

  1. 如果文件或目錄特定於存儲策略,則返回。
  2. 對於未指定的文件或目錄,如果是根目錄,則返回默認存儲策略。否則,返回其父級的有效存儲策略。

我們在實踐過程中,因爲有一部分實時分析的需求,一部分是歷史數據的保存,歷史數據很少參與計算,只需偶爾查詢會用到。那麼對於歷史數據來說,我們可以使用一批計算能力較弱,而硬盤較多、容量較大的SATA盤,而實時分析的場景,需要高性能的計算力和硬盤吞吐能力,我們選用SSD硬盤來支撐,此外HDFS還提供了內存存儲類型,但我們的內存還是有限,暫未使用到。實際上,我們的每臺服務器的12塊硬盤slot中有3個是SSD,其餘9個是SATA。我們實踐結果表明,使用這種策略的效果比以前好了4倍以上。

要使用存儲策略,我們需要在在每個數據節點上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如:

  1. 使用[DISK]file:///dfs/dn來標識這個存儲位置爲普通硬盤
  2. 使用[SSD]file:/// dfs/dn來標識這個存儲位置爲SSD硬盤

此外,默認情況下的存儲格式爲DISK。

下面介紹設置存儲策略命令:

  1. hdfsstoragepolicies -setStoragePolicy -path -policy 

相應的獲取存儲策略命令爲:

  1. hdfs storagepolicies -getStoragePolicy -path 

總結下:我們可以在一個限定的Hadoop集羣中進行設置不同的磁盤使用不同的存儲策略,還可以利用API將數據存儲到不同的存儲層。HDFS設計的詳細存儲類型和存儲策略如下表,有興趣的同學可以看看:

大數據存儲平臺之異構存儲實踐深度解讀

注:HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的 計算能力,用於歸檔數據使用,從上圖可以看出冷數據適合使用archive存儲類型。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章