大數據服務上雲的思考

最近看到亞馬遜第一次單獨公佈AWS財報,一年營收57億美元,市場份額佔比第一。混合雲市場,2014年,IBM以綜合的IT能力,收入70億奪魁。雲計算喊了這麼多年,不知不覺已經變成了幾十億美元的大生意。雲計算時代真的來了!

AWS的財報可以看看下面的圖解:



<!--[endif]-->

今天不是來說AWS的,說說大數據怎麼上雲的一些思考:

1、首先說說,大數據和雲的關係,雲是一種網絡形態的概念,是繼1980年代大型計算機到客戶端-服務器的大轉變之後的又一種鉅變。雲計算Cloud Computing)是分佈式計算Distributed Computing)、並行計算Parallel Computing)、效用計算Utility Computing)、網絡存儲Network Storage Technologies)、虛擬化Virtualization)、負載均衡Load Balance)、熱備份冗餘High Available)等傳統計算機網絡技術發展融合的產物。除了技術上的融合形態,更重要的體現了一種服務模式的一種融合和改變,對於雲來說,大數據只是上面的一種服務,和其他的web服務,數據庫服務沒有區別。

2I層(雲的基礎設施)現在業界最火的方案是OpenStackOpenStack是一個由NASA美國國家航空航天局)和Rackspace合作研發併發起的,以Apache許可證授權的自由軟件開放源代碼項目。

OpenStack是一個開源的雲計算管理平臺項目,由幾個主要的組件組合起來完成具體工作。OpenStack支持幾乎所有類型的雲環境,項目目標是提供實施簡單、可大規模擴展、豐富、標準統一的雲計算管理平臺。OpenStack通過各種互補的服務提供了基礎設施即服務(IaaS)的解決方案,每個服務提供API以進行集成。

OpenStack雲計算平臺,幫助服務商和企業內部實現類似於 Amazon EC2 S3 的雲基礎架構服務(Infrastructure as a Service, IaaS)OpenStack 包含兩個主要模塊:Nova Swift,前者是 NASA 開發的虛擬服務器部署和業務計算模塊;後者是 Rackspace開發的分佈式雲存儲模塊,兩者可以一起用,也可以分開單獨用。OpenStack除了有 Rackspace NASA 的大力支持外,還有包括 DellCitrix Cisco Canonical等重量級公司的貢獻和支持,發展速度非常快。

在雲環境中,Openstack解決了I層的問題,所有物理資源的管理和分配由I層來負責。

3正是因爲I層將資源和存儲進行了虛擬化然後對上提供,大數據上雲最大的兩個問題是資源管理和數據存儲。同時大數據又是重載的業務,對資源的需求非常高,因此需要大數據和openstack充分配合,大數據上雲才能運行的好。

4、傳統數據中心,大數據集羣的資源管理和分配目前主要的方案是mesos/YARN



 
<!--[endif]-->

從上圖大家可以看出,Mesos/YARN來對物理資源直接進行管理,然後分配給上層的組件使用。 資源隔離方面,docker方案發展很快,所以又有YARNkubernets結合的方案。PaaS作爲一個服務直接架在YARN上。在沒有直接I層能力的情況下,應該是非常合適的一種的過渡方案,但是如果YARN管理的不是直接的物理資源,而是I層虛擬出來的VM/docker之類,mesos/YARNI層的能力就出現了一定的重合和衝突,這個時候mesos/YARN應該把VM/Docker級資源管理和分配的能力釋放給I層,聚焦於job級資源的分配和調度。此時PaaS在架構在YARN/MESOS上就非常多餘。

5、對於存儲存在同樣的問題,HDFS是對物理硬盤的直接抽象成對象存儲,並提供3份冗餘來保障數據的可靠性。雲上的I層對存儲通常也會抽象,並且進行一定的冗餘,來動態分配給上層應用。HDFS直接架在I層上,就存在反覆冗餘的問題。同時大數據的核心是對數據的處理,數據存儲的位置對性能起到非常關鍵的作用,多層反覆虛擬化之後,數據存儲的不確定性,性能損耗非常大。因此I層最好將物理硬盤直接提供出來給大數據服務可見,讓用數據的人直接管理數據效率最高。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章