Hadoop 簡介 雲計算

Hadoop 簡介 雲計算

Posted in 10gen, Amazon, EC2, Eucalyptus, Hadoop, LAMP, cloud computing, 未分類 on Sep 6th, 2008 No Comments Google和Amazon已經走在了雲計算商業化的前面,在他們後面則是一羣開源的雲計算項目。這讓我們多了一些選擇,可以考慮... 
Hadoop 簡介 

Hadoop 是一個開源的可運行於大規模集羣上的分佈式並行編程框架,由於分佈式存儲對於分佈式編程來說是必不可少的,這個框架中還包含了一個分佈式文件系統 HDFS( Hadoop Distributed File System )。也許到目前爲止,Hadoop 還不是那麼廣爲人知,其最新的版本號也僅僅是 0.16,距離 1.0 似乎都還有很長的一段距離,但提及 Hadoop 一脈相承的另外兩個開源項目 Nutch 和 Lucene ( 三者的創始人都是 Doug Cutting ),那絕對是大名鼎鼎。Lucene 是一個用 Java 開發的開源高性能全文檢索工具包,它不是一個完整的應用程序,而是一套簡單易用的 API 。在全世界範圍內,已有無數的軟件系統,Web 網站基於 Lucene 實現了全文檢索功能,後來 Doug Cutting 又開創了第一個開源的 Web 搜索引擎(http://www.nutch.org/) Nutch, 它在 Lucene 的基礎上增加了網絡爬蟲和一些和 Web 相關的功能,一些解析各類文檔格式的插件等,此外,Nutch 中還包含了一個分佈式文件系統用於存儲數據。從 Nutch 0.8.0 版本之後,Doug Cutting 把 Nutch 中的分佈式文件系統以及實現 MapReduce 算法的代碼獨立出來形成了一個新的開源項 Hadoop。Nutch 也演化爲基於 Lucene 全文檢索以及 Hadoop 分佈式計算平臺的一個開源搜索引擎。 

基於 Hadoop,你可以輕鬆地編寫可處理海量數據的分佈式並行程序,並將其運行於由成百上千個結點組成的大規模計算機集羣上。從目前的情況來看,Hadoop 註定會有一個輝煌的未來:"雲計算"是目前灸手可熱的技術名詞,全球各大 IT 公司都在投資和推廣這種新一代的計算模式,而 Hadoop 又被其中幾家主要的公司用作其"雲計算"環境中的重要基礎軟件,如:雅虎正在藉助 Hadoop 開源平臺的力量對抗 Google, 除了資助 Hadoop 開發團隊外,還在開發基於 Hadoop 的開源項目 Pig, 這是一個專注於海量數據集分析的分佈式計算程序。Amazon 公司基於 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ),提供可靠,快速,可擴展的網絡存儲服務,以及一個商用的雲計算平臺 Amazon EC2 ( Amazon Elastic Compute Cloud )。在 IBM 公司的雲計算項目--"藍雲計劃"中,Hadoop 也是其中重要的基礎軟件。Google 正在跟IBM合作,共同推廣基於 Hadoop 的雲計算。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章