大數據存儲平臺之異構存儲實踐深度解讀

經常做數據處理的夥伴們肯定會有這樣一種體會：最近一週內的數據會被經常使用到，而比如最近幾周的數據使用率會有下降，每週僅僅被訪問幾次;在比如3月以前的數據使用率會大幅下滑，存儲的數據可能一個月才被訪問幾次。

這就產生了一種熱和冷數據，對需要頻繁訪問的數據我們稱之爲“熱”數據，反之我們稱之爲”冷”數據，而處於中間的數據我們稱之爲”溫”數據。如果你想了解大數據的學習路線，想學習大數據知識以及需要免費的學習資料可以加羣：806025609.歡迎你的加入。

在數據被視爲公司資產的時代，每個公司基本都會保存最近數年的數據，而這些數據尤其是冷數據的累積也給存儲平臺帶來了甜蜜的負擔。下面就來分享下如何解決這些“負擔”。

首先如何定義數據爲冷熱數據呢，eBay公司根據數據年齡和使用頻率來定義不失爲一種辦法，下圖爲eBay關於數據溫度的定義

從hadoop2.6開始，HDFS更好的支持了這種冷熱數據的分離存儲，我們可以按HDFS路徑指定其存儲策略，目前HDFS支持的存儲策略有：HOT、WARM、COLD、All_SSD、One_SSD、Lazy_Persist,我們着重介紹SSD相關的存儲策略，具體如下：

All_SSD - 用於將所有副本存儲在SSD中
One_SSD - 用於將其中一個副本存儲在SSD中。剩餘的副本存儲在DISK中
Lazy_Persist - 用於在內存中寫入單個副本的塊。該副本首先寫入RAM_DISK，然後在DISK中延續

創建文件或目錄時，其存儲策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。

如果文件或目錄特定於存儲策略，則返回。
對於未指定的文件或目錄，如果是根目錄，則返回默認存儲策略。否則，返回其父級的有效存儲策略。

我們在實踐過程中，因爲有一部分實時分析的需求，一部分是歷史數據的保存，歷史數據很少參與計算，只需偶爾查詢會用到。那麼對於歷史數據來說，我們可以使用一批計算能力較弱，而硬盤較多、容量較大的SATA盤，而實時分析的場景，需要高性能的計算力和硬盤吞吐能力，我們選用SSD硬盤來支撐，此外HDFS還提供了內存存儲類型，但我們的內存還是有限，暫未使用到。實際上，我們的每臺服務器的12塊硬盤slot中有3個是SSD，其餘9個是SATA。我們實踐結果表明，使用這種策略的效果比以前好了4倍以上。

要使用存儲策略，我們需要在在每個數據節點上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如：

使用[DISK]file:///dfs/dn來標識這個存儲位置爲普通硬盤
使用[SSD]file:/// dfs/dn來標識這個存儲位置爲SSD硬盤

此外，默認情況下的存儲格式爲DISK。

下面介紹設置存儲策略命令：

hdfsstoragepolicies -setStoragePolicy -path -policy

相應的獲取存儲策略命令爲：

hdfs storagepolicies -getStoragePolicy -path

總結下：我們可以在一個限定的Hadoop集羣中進行設置不同的磁盤使用不同的存儲策略，還可以利用API將數據存儲到不同的存儲層。HDFS設計的詳細存儲類型和存儲策略如下表，有興趣的同學可以看看：

注：HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的計算能力，用於歸檔數據使用，從上圖可以看出冷數據適合使用archive存儲類型。

這就產生了一種熱和冷數據，對需要頻繁訪問的數據我們稱之爲“熱”數據，反之我們稱之爲”冷”數據，而處於中間的數據我們稱之爲”溫”數據。如果你想了解大數據的學習路線，想學習大數據知識以及需要免費的學習資料可以加羣：784789432.歡迎你的加入。每天下午三點開直播分享基礎知識，晚上20:00都會開直播給大家分享大數據項目實戰。

首先如何定義數據爲冷熱數據呢，eBay公司根據數據年齡和使用頻率來定義不失爲一種辦法，下圖爲eBay關於數據溫度的定義

All_SSD - 用於將所有副本存儲在SSD中
One_SSD - 用於將其中一個副本存儲在SSD中。剩餘的副本存儲在DISK中
Lazy_Persist - 用於在內存中寫入單個副本的塊。該副本首先寫入RAM_DISK，然後在DISK中延續

創建文件或目錄時，其存儲策略未指定。可以使用“hdfs dfsadmin -setStoragePolicy ”命令指定存儲策略。文件或目錄的有效存儲策略由以下規則解決。

如果文件或目錄特定於存儲策略，則返回。
對於未指定的文件或目錄，如果是根目錄，則返回默認存儲策略。否則，返回其父級的有效存儲策略。

要使用存儲策略，我們需要在在每個數據節點上hdfs-site.xml中參數dfs.datanode.data.dir配置的由逗號分隔的存儲位置使用的存儲類型進行標記。例如：

使用[DISK]file:///dfs/dn來標識這個存儲位置爲普通硬盤
使用[SSD]file:/// dfs/dn來標識這個存儲位置爲SSD硬盤

此外，默認情況下的存儲格式爲DISK。

下面介紹設置存儲策略命令：

hdfsstoragepolicies -setStoragePolicy -path -policy

相應的獲取存儲策略命令爲：

hdfs storagepolicies -getStoragePolicy -path

注：HDFS新加的ARCHIVE存儲類型, 它是一種支持PB級的高容量存儲但很少的計算能力，用於歸檔數據使用，從上圖可以看出冷數據適合使用archive存儲類型。

大數據存儲平臺之異構存儲實踐深度解讀

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

Mac卸載 Node npm，升級 Node

嵌入式汽車電子學習路線

uni.showModel內容換行

10分鐘完成Spring Boot 實戰

面試官再問Redis分佈式鎖如何續期？這篇文章甩他一臉

Spring Boot 整合 Freemarker，50 多行配置是怎麼省略掉的？

一文看懂分佈式架構的前世今生

京東服務市場微服務架構和積木式賦能挑戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結