大數據中Hadoop能做什麼


摘要:本文從Hadoop的初衷、大數據時代背景、Hadoop的使用者來探討“Hadoop能做什麼”這個問題。

關鍵詞:Hadoop   大數據

Hadoop是Doug  Cutting 基於Google公司的GFS和MapReduce思想不斷完善項目Nutch中脫胎而出的。

Hadoop是適合於大數據的分佈式存儲和處理平臺,是一種開源的框架。

大數據時代已經到來,給我們的生活、工作、思維方式都帶來變革。如何尋求大數據後面的價值,既是機遇又是挑戰。不管是金融數據、還是電商數據、又還是社交數據、遊戲數據.......這些數據的規模、結構、增長的速度都給傳統數據存儲和處理技術帶來巨大考驗。幸運的是,Hadoop的誕生和所構建成的生態系統給大數據的存儲、處理和分析帶來了曙光。

不管是國外的著名公司Google、Yahoo!、微軟、亞馬遜、 EBay、FaceBook、Twitter、LinkedIn等和初創公司Cloudera、Hortonworks等,又還是國內的著名公司中國移動、阿里巴巴、華爲、騰訊、百度、網易、京東商城等,都在使用Hadoop及相關技術解決大規模化數據問題,以滿足公司需求和創造商業價值。

例如:Yahoo! 的垃圾郵件識別和過濾、用戶特徵建模;Amazon.com(亞馬遜)的協同過濾推薦系統;Facebook的Web日誌分析;Twitter、LinkedIn的人脈尋找系統;淘寶商品推薦系統、淘寶搜索中的自定義篩選功能......這些應用都使用到Hadoop及其相關技術。

“Hadoop能做什麼?” ,概括如下:

1、搜索引擎(Doug Cutting  設計Hadoop的初衷,爲了針對大規模的網頁快速建立索引)。

2、大數據存儲,利用Hadoop的分佈式存儲能力,例如數據備份、數據倉庫等。

3、大數據處理,利用Hadoop的分佈式處理能力,例如數據挖掘、數據分析等。

4、科學研究,Hadoop是一種分佈式的開源框架,對於分佈式計算有很大程度地參考價值。


Hadoop的核心是一個分佈式計算和存儲平臺,從其核心的HDFS和Map/Reduce來說,它可以做下面的事情:
1.日誌分析:這是當前用的最多的一個用途,百度就是用Hadoop實現的其日誌分析功能。
2.海量數據的查詢:從海量數據中找出你需要的那個。
3.數據分析:提供強大的計算功能支持大量的計算分析。

其實,Hadoop能做什麼,一是存儲,二是計算。

關鍵是看你想讓Hadoop做什麼,Hadoop適合什麼樣的計算,什麼樣的存儲。

HDFS是一個分佈式的文件系統,適合的是非結構化數據的存儲。
Map/Reduce是一個並行編程模型,適合高併發、高讀寫的計算。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章