gemfire:VMware大數據之道

當雲計算遇上大數據,怎樣在虛擬環境中獲取大數據的價值,是企業必須面臨的問題。其中最關鍵的一個部分就是:內存虛擬化。

gemfire:VMware大數據之道

gemfire:VMware大數據之道

VMware給出了他們的答案:在統一的vSphere雲架構之上,提供GemFire實時處置、GreenPlum交互處置及Hadoop批處置三種模式,滿足用戶的海量、快速及靈活的大數據處置需求,併爲開發者、數據剖析師、數據科學家和商務用戶提供數據剖析及可視化的數據展示。

與IBM、EMC、富士通、Intel等先後推出Hadoop刊行版差別,Vmware更專注於基礎架構層面。在一場2000餘人到場的VMware & EMC大數據雲高峯論壇上,VMware公司大中華區總裁宋家瑜表示,雲的平臺纔是唯一能解決爆炸性大數據使用的需求,把關鍵應用移到雲平臺已經是一個一定趨勢。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

Hadoop由於其低成本和高擴展性的優勢,成爲各大廠商處置海量數據的法寶,但虛擬基礎架構雲上的Hadoop,存在可靠性問題。憑據阿帕奇Virtual Hadoop wiki文檔給出的結論,可以將Hadoop帶到雲基礎架構上,但物理和虛擬基礎設施之間的差異可能危及數據完整性和安全性。

現在,VMware開源項目Serengeti試圖改變這個問題。該項目將允許企業在雲端和虛擬環境中,在 vSphere 上部署和治理Hadoop。

範承工介紹,Serengeti將Hadoop在虛擬基礎架構的部署時間從許多天縮短到10分鐘,同時還能夠提高硬件的利用率,能夠滿足多租戶的需求,有更好的安全隔離,也有更好的伸縮性。Vmware還介紹,通過 vSphere,Hadoop應用如若節點失敗能夠自動重啓。

VMware試圖在統一的vSphere雲架構之上,提供GemFire實時處置、GreenPlum交互處置及Hadoop批處置三種模式,滿足用戶的海量、快速及靈活的大數據處置需求,併爲開發者、數據剖析師、數據科學家和商務用戶提供數據剖析及可視化的數據展示。

Vmware還做了一個UAP(Universal Analytics Platform)的大數據剖析平臺,其中包括Greenplum database、Hadoop和Chorus分享軟件,這個平臺可以幫助客戶同時剖析處置結構化和非結構化的數據。

通過Chorus系統,數據科學家可以自助的創建圖形工作區,搜索和獲取這些企業當中的數據。接下來創建數據剖析沙箱,也不會影響別人,當他有新的發現之後,又可以把他的發現孝敬給其他的數據科學家進行不停的改良。

雲端大數據剖析工具Cetas,該產品來源於Vmware收購的一家提供在Hadoop平臺之上的剖析服務的公司,提供實時剖析的能力,可以對市場的變化做出快速反映。Cetas通過公共雲提供服務,易於部署,內建高效的剖析算法,且簡單易用,極度容易的能夠把數據上傳到雲裏面,可以提供一個可視性的圖表,對數據進行很好的展示。這也意味着,無需專業的數據科學家和統計科學家就可以進行商業剖析。

在滿足快速需求上,Vmware有GemFire和SQLFire,他們都是內存爲主導的數據庫形式,可以實時地對數據的反映。在靈活上,Vmware提供了Object的GemFire的方式,爲關係型數據庫提供選擇。

身兼兩職的GemFire,實際上並非傳統的內存數據庫,而是橫向擴展的疏散式的數據庫,可以和現有的數據庫共存,把它的優點發揮出來。它有許多平行的算法,可以應對OLTP,OLAP數據剖析等等。

由此看來,Vmware通過併購與研發,提供了包括虛擬服務器層、應用平臺層、以及應用之上的數據層的技術。同時,這幾種技術也可以一起使用,以滿足用戶所有的應用需求。因此,說整體的大數據解決方案是恰如其分。

背景介紹:傳統的數據庫大多接納ACID(即(Atomicity, Consistency, Isolation, Durability)規則進行設計,隨着數據量和業務量的擴大,同時爲了保持數據的一致性,在併發過程加入了大量的鎖控制,因此傳統的基於硬盤存儲的數據庫徐徐成爲了大型系統和複雜操作的IO和擴展性瓶頸所在。

VMware的gemfire正好提供這一條理的內存虛擬化技術,將傳統意義的數據庫進行了內存級其它虛擬化,創建了電腦集羣級其它內存池,大大減少了IO延遲,從而軟件開發人員不用在考慮硬盤條理的數據交換,設計上更加靈活自由,給OLAP等應用帶了新的飛躍。

現有的gemfire部署方式有三種:P2P,client-server 或者 super-peer,hub-spoke組織的架構。

擴展閱讀:

12306接納Pivotal GemFire分佈式解決方案 解決尖峯高流量併發問題

中國鐵路客戶服務中央網站www.12306.cn是世界規模最大的實時買賣系統之一,媲美Amazon.com,節假日尤其是春節的訪問高峯,網站壓力巨大。2012年6月選擇了Pivotal GemFire分佈式內存計算平臺(Distributed In-memory computing)改造12306,由鐵科院項目小組負責人王明哲主任和資拓宏宇(IISI)信息科技有限公司在鐵科院主管朱建生所長領導下提供技術實行。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

GemFire是Pivotal企業級大數據PaaS平臺的一部分。Pivotal公司的企業級大數據PaaS平臺主要有三個條理:雲基礎架構層 Cloud Fabric、大數據基礎架構層Data Fabric、應用開發基礎架構層Application Fabric。GemFire屬於大數據基礎架構層,此外,Greenplum數據庫也屬於這一層;雲基礎架構層的技術是Cloud Foundry;應用開發基礎架構層的技術是Spring Framework和RabbitMQ等。

12306之前接納Unix小型機架構,接納GemFire技術改造成Linux/X86服務器集羣架構,就意味着一下跨越三代。從小型機到大內存X86服務器集羣,不僅讓性能提升了一個數量級,而且成本也要低得多。

2012年3月開始,鐵路總公司(原鐵道部)開始調研、改造12306。2012年6月選擇了Pivotal GemFire分佈式內存計算平臺(Distributed In-memory computing)改造12306,一期先改造12306的主要瓶頸——餘票查詢系統。9月份完成代碼改造,系統上線。2012年國慶,又是網上訂票高峯期間,大師可以顯著發現,可以登錄12306,雖然還是很難訂票,但是查詢餘票很快。2012年10月份,二期用 GemFire改造訂單查詢系統(客戶查詢自己的訂單記錄)。2013年春節,又是網上訂票高峯期間,大師可以顯著發現,可以登錄12306,雖然還是很難訂票,但是查詢餘票很快,而且查詢自己的訂票和下訂單也很快。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

中國鐵道科學研究院電子計算技術研究所副所長朱建生表示,“通過技術改造解決了困擾我們多時的尖峯高流量併發問題,讓全國人民不再由於技術原由而埋怨,我們終於舒了一口氣。Pivotal GemFire分佈式集羣內存數據技術對整個技術改造發揮了關鍵的作用。同時,感謝Pivotal公司及實際上施方項目團隊的努力,在技術開改造過程中確保舊系統順暢運行、舊系統到新系統平滑遷移,快速實現新系統的上線。”

gemfire: VMware大數據之道

gemfire: VMware大數據之道

據統計, 在2012年頭的春運高峯期間,每日有2000萬人訪問12306網站,日點擊量最高到達14億。大量同時涌入的網絡訪問造成12306幾近癱瘓。 中國鐵道科學院電子計算技術研究所作爲12306互聯網購票系統的承建單位,急需追求方法解決問題。

憑據系統運行數據記錄,技術改造之後,在只接納10幾臺X86服務器實現了以前數十臺小型機的餘票計算和查詢能力,單次查詢的最長時間從之前的15秒左右下降到0.2秒以下,縮短了75倍以上。2012年春運的極端高流量併發情況下,系統幾近癱瘓。而在改造之後,支持每秒上萬次的併發查詢,高峯期間到達2.6萬個查詢/秒吞吐量,整個系統效率顯著提高。如上圖所示。

訂單查詢系統改造,在改造之前的系統運行模式下,每秒只能支持300-400個查詢/秒的吞吐量,高流量的併發查詢只能通過度庫來實現。改造之後,可以實現高達上萬個查詢/秒的吞吐量,而且查詢速度可以保障在20毫秒左右。

新的技術架構可以按需彈性動態擴展,並量增加時,還可以通過動態增加X86服務器來應對,保持毫秒級的響應時間。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

12306能夠取得這樣排山倒海的效果,靠技術上的小修小補是不行能的,必須有全新的思緒,能夠給性能提升帶來槓桿式的作用。12306發現GemFire分佈式內存數據平臺就是這樣一種技術。

GemFire分佈式內存數據平臺的技術原理如上圖所示:通過雲計算平臺虛擬化技術,將若干X86服務器的內存集中起來,組成最高可達數十TB的內存資源池,將全部數據加載到內存中,進行內存計算。計算過程自己不需要讀寫磁盤,只是定期將數據同步或異步方式寫到磁盤。GemFire在分佈式集羣中保存了多份數據,任何一臺機器故障,其它機器上另有備份數據,因此通常不用擔憂數據丟失,而且有磁盤數據作爲備份。GemFire支持把內存數據持久化到種種傳統的關係數據庫、Hadoop庫和其它文件系統中。

gemfire: VMware大數據之道

gemfire: VMware大數據之道

大師知道,當前計算架構的瓶頸在存儲,處置器的速度根據摩爾定律翻番增長,而磁盤存儲的速度增長很緩慢,由此造成巨大高達10萬倍的差距。這樣就很好理解GemFire爲什麼能夠大幅提高系統性能了。

根據計算與存儲的關係,我們可以將計算架構分爲四代:

第一代,基於磁盤的單一系統:計算過程中需要從磁盤讀取數據。小型機、大型機是其中的佼佼者,將單一系統的性能做到極致。

第二代,基於磁盤的分佈式集羣系統:計算過程中需要從磁盤讀取數據,但通過度布系統將數據疏散到差別的服務器磁盤上,提高整個系統的處置能力。現在許多大型互聯網和電子商務公司接納基於X86服務器的分佈式集羣系統,依賴海量的X86服務器部署解決高流量併發的問題。

第三代,基於內存的單一系統:將整個數據庫放在內存中,計算過程不需要從磁盤讀取數據。整個系統的性能取決於單一系統的性能。傳統的內存數據庫就是這樣的系統,對於企業級的應用可以很好地解決訪問速度的問題,但面臨海量數據或是海量併發訪問的擴展性問題就無能爲力。

第四代,基於內存的分佈式集羣系統:GemFire就是這樣的系統,並行計算是其關鍵技術之一,因而可以通過增加服務器部署規模,在內存計算的基礎上,線性擴展性能


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章