摘要:本文從Hadoop的初衷、大數據時代背景、Hadoop的使用者來探討“Hadoop能做什麼”這個問題。
關鍵詞:Hadoop 大數據
Hadoop是Doug Cutting 基於Google公司的GFS和MapReduce思想不斷完善項目Nutch中脫胎而出的。
Hadoop是適合於大數據的分佈式存儲和處理平臺,是一種開源的框架。
大數據時代已經到來,給我們的生活、工作、思維方式都帶來變革。如何尋求大數據後面的價值,既是機遇又是挑戰。不管是金融數據、還是電商數據、又還是社交數據、遊戲數據.......這些數據的規模、結構、增長的速度都給傳統數據存儲和處理技術帶來巨大考驗。幸運的是,Hadoop的誕生和所構建成的生態系統給大數據的存儲、處理和分析帶來了曙光。
不管是國外的著名公司Google、Yahoo!、微軟、亞馬遜、 EBay、FaceBook、Twitter、LinkedIn等和初創公司Cloudera、Hortonworks等,又還是國內的著名公司中國移動、阿里巴巴、華爲、騰訊、百度、網易、京東商城等,都在使用Hadoop及相關技術解決大規模化數據問題,以滿足公司需求和創造商業價值。
例如:Yahoo! 的垃圾郵件識別和過濾、用戶特徵建模;Amazon.com(亞馬遜)的協同過濾推薦系統;Facebook的Web日誌分析;Twitter、LinkedIn的人脈尋找系統;淘寶商品推薦系統、淘寶搜索中的自定義篩選功能......這些應用都使用到Hadoop及其相關技術。
“Hadoop能做什麼?” ,概括如下:
1、搜索引擎(Doug Cutting 設計Hadoop的初衷,爲了針對大規模的網頁快速建立索引)。
2、大數據存儲,利用Hadoop的分佈式存儲能力,例如數據備份、數據倉庫等。
3、大數據處理,利用Hadoop的分佈式處理能力,例如數據挖掘、數據分析等。
4、科學研究,Hadoop是一種分佈式的開源框架,對於分佈式計算有很大程度地參考價值。
Source:
1 http://www.wangluqing.com/2014/02/hadoop-doing/
2 Who uses Hadoop? http://wiki.apache.org/hadoop/PoweredBy
3 Who We Are? http://hadoop.apache.org/who.html
4 http://blog.sina.com.cn/s/blog_687194cd01017lgu.html
5 http://thinkinginhadoop.iteye.com/blog/709947