超融合技術詳解

超融合是什麼,超融合的發展歷程,超融合架構的本質:

超融合架構的本質是什麼?
傳統集中存儲落後於現代企業數據中心發展
首先,雲宏 選擇超融合架構的原因,是傳統存儲解決不了現在企業數據中心的問題。
據麥肯錫研究顯示,全球的 IT 數據每年在以 40% 的速度增加中。數據正在逐步影響商業,企業通過數據的分析來做決策與管理。完成快速的分析決策和管理,就需要藉助強大的數據中心。下圖爲傳統 SAN 存儲:
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
圖一、傳統 SAN 存儲
但是,光靠越來越快、核數越來越多的 CPU 是不夠的,瓶頸在於傳統存儲的硬盤太慢了,CPU 大部分計算能力都空閒或者說在等待存儲數據傳輸過來。傳統存儲容量和性能不具備和”計算能力“匹配的可擴展性,不能滿足企業進行數據訪問的需求。
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
圖二、傳統 SAN 存儲遭遇 I/O 瓶頸
這個問題並不是現在纔有。Google 很早遇到這個問題。那麼 Google 是如何做的呢?
作爲一個給全世界互聯網網民提供數據檢索的企業,Google 考慮過 EMC、IBM,還有當年的 SUN 存儲產品,但是都解決不了它的問題。無論是容量還是性能,這些公司的產品都無法滿足 Google 的規模需求。於是 Google 只能自己建立一個適合自己的數據搜索的存儲結構了。
Google 優秀的計算機科學家們,打破了傳統的存儲思維,利用服務器的本地硬盤和軟件構建了一個容量和性能不斷可擴展的分佈式文件系統,並在其上構建了其搜索和分析的計算引擎:
不用把數據從存儲端取出來,然後通過網絡傳輸到計算端,而是將計算直接分發到存儲上運行,將“計算”作爲傳輸單元進行傳輸,這樣大量的存儲數據都是本地訪問,不需要再跨網絡上傳輸了,自然訪問很快。於是乎,自然而然地,“計算”和“存儲”運行(“融合”)在了一個服務器上,這裏我們也看到超融合架構的一個優勢就是,本地訪問數據,不必跨網絡。
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
圖三、超融合架構示意圖
現代企業的數據量越來越大,應用越來越多,他們開始面臨當年 Google 遇到的問題,CIO 要考慮怎麼更高效的構建自己的計算和存儲的基礎架構,來滿足應用的數據訪問需求。
虛擬化爲更容易的管理應用而生,它解決了 CPU、內存資源閒置的問題。但隨着虛擬化的大規模應用,虛擬機越來越多,虛擬機在傳統存儲上運行卻越來越慢了。“慢”造成“體驗差”,“體驗差”成爲了限制虛擬化應用的最大的瓶頸。這裏面的最重要原因自然是,存儲的 I/O 性能不夠,大量的虛擬機和容器同時運行,I/O 的混合,使得隨機讀寫急劇增加,傳統存儲的結構無法承受大量的隨機 I/O。
超融合恰恰是爲了解決這個問題,才被帶到了虛擬化和容器領域。同時,業內也存在不同的解決 I/O 問題的方法,我們先嚐試分析下其他的解決方法:
解決方法一:在存儲設備採用 SSD 做 Cache,加速 I/O。這在一定的規模下可能有效,但是存儲設備的 SSD Cache 通常比例較小,不足 5% 的容量比的情況下,自然滿足不了用戶的熱數據的緩存需求。另外,仍然無法隨需擴展,所有的數據仍然要從集中的存儲控制器流出,這個集中的“收費站”勢必堵塞“高速公路”。
解決方法二:使用服務器側 SSD 做 Cache,加速 I/O。這種類似的解決方案,通常缺乏高可靠性軟件的支撐,服務器端的 Cache 如果用做寫 Cache,存在單點失效的問題,需要在多個服務器的 Cache 設備上,做副本來提供可靠性,可以說這是一個閹割版的超融合架構,將 Cache 放到服務器端,仍然使用傳統存儲,當 Cache 滿,需要被寫回傳統存儲的時候,仍然被傳統存儲的“控制器”限制整體性能。
我們看到,上面的兩種方案都是受限於傳統存儲的結構,超融合存儲則不一樣,通過完全去掉傳統存儲,利用分佈式文件系統來提供“不可限量”的性能和容量,在這個基礎上,再通過 Cache 進行加速,甚至全部使用閃存(全閃存產品)來構建都是自然而然,不被限制了。
因此,超融合架構不是爲了讓單臺服務器的存儲飛快,而是爲了讓每增加一臺服務器,存儲的性能就有線性的提升,這樣的存儲結構纔不限制企業業務的運行,並保證業務的可靠性。
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
圖四、超融合將存儲池化,性能線性提升
正因爲這種擴展性很好的共享存儲,使得整個 Google 的業務得以順暢地運轉。雲宏 在做的就是這樣的更好的、更穩定的基礎服務。
另外,超融合近幾年得以快速發展的原因,這要歸功於硬件設備。CPU 核數越來越多,服務器的內存容量越來越大,SSD 設備和網絡互聯網設備越來越快,這意味着:
a. 服務器的資源除了運行業務以外,仍然可以預留出來足夠的 CPU,內存資源來運行存儲軟件。將存儲軟件和業務運行到一塊,既減少了設備量,減少了電力使用,本地讀取也提高了 I/O 的存取效率。這在幾年前是做不到的,因爲 CPU 和內存太有限了。
b. 網絡互聯越來越快,無論是萬兆,40Gb 以太網,還是Infiniband(無限寬帶技術),使得我們的軟件能夠將獨立的存儲設備進行互連,通過分佈式文件系統形成共享的存儲池,供上層應用使用。
c. 如果說 SSD 等硬件廠商讓單個存儲設備跑的更快,我們的軟件的意義在於,讓超大量的這些存儲設備,一起工作,提供無止境的整體性能和容量。
在超融合架構中,層次存儲爲什麼是提升數據的 I/O 性能的最好選擇。
首先,讓我們追溯到現代計算機體系結構中,解決系統性能瓶頸的關鍵策略:Cache。
現代計算機體系結構是基於馮·諾依曼體系結構構建的,馮.諾依曼體系結構將程序指令當做數據對待,程序和數據存儲在相同的存儲介質(內存)中,CPU 通過系統總線從內存中加載程序指令和相應的數據,進行程序的執行。
馮·諾依曼體系結構解決了計算機的可編程性問題,但是帶來了一個缺點,因爲程序指令和數據都需要從內存中載入,儘管 CPU 的速度很快,卻被系統總線和內存速度的限制,不能快速的執行。爲解決這個問題,Cache 的理念被提出,通過在 CPU 和內存之間加入更快速的訪問介質(CPU Cache),將 CPU 經常訪問的指令和數據,放置到 CPU Cache 中,系統的整體執行速度大幅度提升。
I/O 性能瓶頸問題轉移到了存儲
如果內存的訪問速度相對 CPU 太慢,那麼磁盤的 I/O 訪問速度相對 CPU 來說就是“不能忍”了。下表是不同存儲介質的訪問延時,在虛擬化環境下或雲環境下,由於 I/O 基本都是隨機 I/O,每次訪問都需要近 10ms 的尋道延時,使得 CPU 基本處於“等待數據”的狀態,這使得核心業務系統運轉效率和核心應用的用戶體驗都變得很差,直觀的感受就是業務系統和桌面應用“很卡”。
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
基於 SSD 構建平衡系統
和前人解決內存訪問延時問題的思路類似,現在的主流方法是使用內存和 SSD 作爲 Cache 來解決 I/O 性能瓶頸。存儲系統能夠分析出數據塊的冷熱程度,將經常訪問的數據塊緩存到內存和 SSD 中,從而加速訪問。
不論是全閃存存儲,還是混合介質存儲,從某種意義上講都是層次存儲,只不過混合陣列多了一層磁盤介質。
學過計算機體系結構的人都聽說過著名的 Amdahl 定律,這裏我們要介紹一個 Amdahl 提出的“不那麼著名”的經驗法則:
“在一個平衡的並行計算環境中,每 1GHz 的計算能力需要 1Gbps 的 I/O 速度與之匹配”
假設一臺服務器有 2 顆 E5-4669 v3 的 CPU,每顆 CPU 有 18 個核,36 個超線程,主頻是 2.1GHz,那麼我們可以計算一下,這樣的一臺服務器需要 151Gbps (即~19GBps)的帶寬。在大規模的雲計算(虛擬機算)環境中,極端情況下,大量的 I/O 併發使得存儲收到的 I/O 都變成隨機 I/O,在這麼一個併發環境中,假設我們的訪問大部分都是 8KB 的讀寫,根據上面的計算,我們需要爲一臺服務器配備近 250 萬的 IOPS 讀取速度。
在不考慮系統總線的情況下,如果我們用 SAS/SATA 硬盤來提供這個 IOPS,即使每個 SAS/SATA 盤可以提供近 250 的 IOPS(實際數值更小),僅爲構建一臺平衡的服務器計算存儲環境,就需要大概 1 萬個 SAS/SATA 硬盤。在稍大規模的虛擬化環境,想要搭出一個平衡的系統,用傳統的 SAS/SATA 硬盤幾乎不可能完成任務。但是如果採用能夠提供 10 萬“寫 IOPS”的 SSD 設備,25 塊 SSD 就夠了。
層次存儲的優勢
“層次存儲”是相對“全閃存”而言,是指將容量大但是速度較慢的 HDD 和速度快的 SSD 同時構建在系統中,通過數據的訪問特性,將經常訪問的熱數據放置在 SSD 中,而冷數據放置在 HDD 中。
首先,爲構建一個平衡的虛擬化環境,需要大量的 SSD 設備來提供足夠的 IOPS。但是 SSD 也不是完美的。目前的 SSD 擦寫次數有限、價格高。層次存儲將熱數據放置在 SSD 層中,而大量的冷數據仍然放置在 SATA 硬盤上,熱數據週期性的同步到 HDD 硬盤,既爲用戶熱數據提供了高 IOPS 的保障,也通過 SATA 硬盤提供了更大的容量和可靠性。
下圖是對 11 個開發人員桌面負載的 I/O 統計,包含了對 5.1TB 大小的存儲上的 76 億次 IO 訪問和 28TB 的數據傳輸。首先值得注意的是,有 3.1TB(62%) 的數據,在一年內從來沒有被訪問過,這意味着這些數據無論是放置在 SSD 上,還是 SATA 上,甚至放到 U 盤上拔走,對系統都沒有影響。
超融合是什麼,超融合的發展歷程,超融合架構的本質是什麼?
數據是有冷熱的,這也是爲什麼我們爲什麼既可以爲用戶提供高性價比的層次存儲方案,又能夠讓用戶得到類似全閃存存儲體驗的原因。
雲宏超融合一體機是雲宏根據企業特點,基於自主研發的服務器虛擬化和分佈式存儲技術,將計算、存儲和網絡集成於X86服務器之中,爲客戶提供硬件與軟件一體,產品與服務一體的企業雲數據中心。它不僅爲企業構建一個隨需擴展的專有云,還整合了雲桌面、混合雲、安全、容災備份和企業雲應用等功能模塊,開箱即用,是企業信息建設的雲管家。幫助企業大幅度降低規劃難度,節省成本,提升效率。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章