亂花漸欲迷人眼:淺談關於分佈式存儲的五大“謊言”

要說近幾年存儲這條街最靚的仔,莫過於分佈式存儲了。


自誕生以來,分佈式存儲就被視爲存儲的未來,被萬衆期待。然而分佈式存儲起步於寒門,最早應用於互聯網日誌、企業備份歸檔、開發測試等場景,追求極致成本,性能和可靠性卻不敢恭維。但它還算爭氣,憑藉多年的打怪練級,越來越多地開始承載自動駕駛研發、超高清編輯、運營商5G網絡雲等企業的關鍵業務,走上變成高富帥、贏取白富美的道路。


正所謂人紅是非多,存儲領域也是一樣,坊間一直流傳着關於分佈式存儲的各種流言蜚語。好事的筆者今天就來探尋一番,揭開謊言背後的真相。


謊言一:分佈式存儲就是軟件+服務器


目測分佈式存儲領域有兩個派系,一派是SDS(軟件定義存儲),一派是軟硬一體。前者以vSAN、Ceph爲代表,以軟件廠商爲主在推廣。分佈式存儲軟件+通用服務器組合,打着重定義存儲市場的旗幟,頗有“有王侯將相寧有種乎”的氣勢;另一派是存儲老牌存儲玩家的產品,他們以軟硬一體爲主,如Isilon、HCP等。


楚河漢界已然形成,未來誰主沉浮?


誰主沉浮很難判斷,不過我們不妨從產業動態窺見一斑。雖然用過的客戶都詬病分佈式存儲軟件+服務器的方式存在各種兼容性、可靠性、可維護性的問題,但筆者認爲SDS這種模式會長期存在,尤其是在傳統的低端領域,如備份歸檔、開發測試環境。而越往高端走,軟硬一體越是佔據主流。業界主流廠商也在持續推出軟硬一體的產品:


國外,DELL&EMC的PowerScale(Isilon)、DDN的EXAScaler等產品;


國內XSKY、浪潮等Ceph系開源廠商也推出了軟硬件一體產品如XScaler Express。尤其有趣的是XSKY,這可是國內Ceph系軟件定義存儲的旗幟啊,你品,你細品。


另一方面,筆者也注意到近些年運營商開展了大規模的分佈式存儲集採,有文件的有塊的。以中國移動2019~2020年分佈式塊存儲集採爲例,3個標段中2個爲軟硬一體採購,佔比超過了90%;電信集團2020年集採也放棄了分佈式存儲純軟件採購,首次全面轉向軟硬一體。從這個角度看,用戶在嘗試了多種採購模式之後,也開始逐步轉變到軟硬一體的道路上來,尤其是大型用戶。


#真相#:分佈式存儲誕生初期主要是純軟形態,近十年來,隨着分佈式存儲逐步進入企業市場,軟硬一體的形成已經成爲主流。



謊言二:分佈式存儲就是低價值存儲


如文章開頭講到的,分佈式存儲早期主要用於互聯網日誌、企業備份歸檔、開發測試等場景,這些場景無疑是低價值場景,成本是第一訴求甚至唯一訴求。


然此一時彼一時,士別三日也當刮目相看。


首先是分佈式存儲產品能力已今非昔比,逐漸具備了承載企業高價值業務的關鍵能力,例如毫秒級時延、TB/s級帶寬、雙活/3DC業務級容災、端到端DIF等,無論是結構化數據還是非結構化數據的承載,功能完備性的最大短板早已補齊。


其次,分佈式存儲已走入衆多高價值關鍵業務,如運營商BOM業務、金融渠道類業務以及超算、油藏探測HPC等高價值業務,通過大規模應用實踐來檢驗成色。(小道消息,某些高價值場景全閃出貨價達到1000美金/TB以上啦)


看完當下還要看看未來,筆者認爲未來高價值的非結構化數據場景,分佈式存儲的版圖還會持續擴展。如自動駕駛訓練、4K/8K超高清、5G日誌留存等場景,對多協議訪問、極致帶寬、擴展性訴求強烈,分佈式存儲已然成爲這些未來業務的首選架構。


#真相#:分佈式存儲早期主要用在備份歸檔等低價值、強成本訴求的場景,如今隨着企業級能力的提升,分佈式存儲也逐步成爲企業生產系統的承載平臺,尤其是面向海量非結構數據場景,全面支撐文件資源池和HPC等高價值場景。



謊言三:開源架構是分佈式存儲的未來


筆者對開源從來是持開放、支持的態度,正是因爲開源的存在,IT產業纔能有今天的繽紛色彩;也正是因爲開源,存儲這個高大上的產品,才走進了更多的尋常百姓家。


但如果說存儲的未來在開源,我不敢苟同。


開源分佈式存儲軟件的出現,一定程度上降低了存儲的門檻,小公司可快速包裝出存儲產品,帶動服務器銷售。但產品同質化問題是所有開源不得不面臨的問題,由於架構限制,很難在不動架構的情況下,真正做出差異化競爭力。互聯網類公司、部分科研機構,以及有技術情結和充足資金投入的客戶可能選擇開源,而對於金融、電信運營商、大企業商用HPC、政府等對可靠性、性能、安全合規有要求的企業,開源從來不是第一選擇,因爲數據太重要了。(聽說,國內某知名銀行曾經投入500人基於開源軟件搭建分佈式存儲,投入巨大且無法達銀行業務對性能、可靠性、易運維訴求,最終於2年後放棄。)


也有認爲開源更自主可控的。筆者認爲開源給了用戶一定的自主權,但和自主可控是兩個概念。據SNYK 2019 年開源安全狀況報告說明,開源軟件漏洞在兩年時間內增加了88%,開源風險的解決強依賴於社區版本發佈,不能及時規避。同時,近兩年國際形勢的大變化,給開放著稱的開源蒙上了一層陰影。


此外,業界TOP主流分佈式存儲產品均是閉源架構,如PowerScale(Isilon)、Spectrum Scale、Nutanix、OceanStor Pacific、VSAN、HCP,翻看了一下三個月前發佈的IDC市場份額報告,TOP5分佈式存儲廠商中,基於開源二次開發的廠商份額僅佔18%。


#真相#:開源只是部分廠商的商業選擇,分佈式存儲產業的主流還是非開源,並且開源並不代表更加自主可控。



謊言四:分佈式存儲可全面取代企業外置式存儲


這是一個在存儲領域爭論最大的問題。


正所謂長江後浪推前浪,分佈式存儲快速增長是不可否認的,這從各大廠商的業績報告和分析師報告就能看出來,但想要把企業外置存儲這個前浪拍死在沙灘上還是步子邁太大,不現實。


企業外置存儲在相當長的一段時間內,仍然是主流。它主要面向企業傳統應用如ERP/CRM/HIS等,數據量不大但對可靠性、性能有極致要求,如銀行Core-Banking,從可靠性、生態層面,分佈式存儲都不是最佳選擇。分佈式存儲主要面向海量數據、新興業務場景,如HPC/EDA、大數據,這類場景以二進制文件、視頻、圖片等非結構化數據爲主,數據量極大。所以從場景來看,二者場景是有明確區隔的,按場景並存是最好的選擇。



從技術的角度,分佈式存儲的發力點在大規模的擴展性,基於此逐步優化性能、可靠性,讓海量數據存得下、用得起;集中式存儲的技術方向在於保持穩定性的基礎上,利用更快的介質、更低時延的網絡爲核心業務提供加速,讓業務更穩、效率更高。因此,從技術方向上來看,二者也是各有側重的。


#真相#:分佈式存儲和企業外置存儲並非取代關係,二者相輔相成、互爲補充。集中式存儲主要面向結構化數據市場,企業外置存儲主要面對海量非結構化數據市場(高價值分佈式文件、分佈式對象)。



謊言五:分佈式存儲就是“雲”


IT潮流滾滾向前,每隔幾年總是需要有一些新概念。


雲和分佈式存儲一樣,這些年正在大行其道、炙手可熱。Cloud First、All in Cloud、Cloud Native等概念風靡業界,CIO見面不提雲貌似都不好意思打招呼。早期人們也習慣把分佈式存儲叫做“雲存儲”,那麼分佈式存儲和雲是什麼關係?


筆者認爲,分佈式存儲是一種技術架構,而云是一種商業模式。分佈式存儲可以被用作各種雲的數據底座,也可以單獨成爲數據底座,是配合的關係,而非替換和包含關係。


其實,從與業界公有云廠商的溝通了解到,公有云雖然近年來加強對傳統IT市場的轉換,但公有云數據增長更多還是來自新興場景。以美國市場爲例,近年來AWS持續快速增長,但PowerScale(Isilon)作爲Dell&EMC面向非結構化數據場景的主力產品,並且近60%的銷售收入來自於北美市場,依然保持以每年近20%的速度穩步增長。



從場景看,多數海量存儲場景,因客戶數據安全、生態、招標模式等原因,以線下采購爲主,公有云爲輔助。以HPC爲例,雲上HPC給業界提供了一種新的方式,讓更多用戶能享受到公有云帶來的便利性。但實際上HPC主要用於創新研究,對數據安全要求高,上雲是有顧慮。參考Hyperion Research報告顯示,到2024年雲上HPC的收入佔比僅17.7%,收入佔比很低。



#真相# :分佈式存儲是一個產品,雲是一種商業模式是一種服務形式,二者不衝突,長期共存是未來




本文分享自微信公衆號 - 大數據在線(dobigdata)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章