從認識Hadoop開始!

Hadoop起源:

Hadoop起源於Apache Nutch項目,始於2002年,是Apache Lucene的子項目之一 [2]  。2004年,Google在“操作系統設計與實現”(Operating System Design and Implementation,OSDI)會議上公開發表了題爲MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:簡化大規模集羣上的數據處理)的論文之後,受到啓發的Doug Cutting等人開始嘗試實現MapReduce計算框架,並將它與NDFS(Nutch Distributed File System)結合,用以支持Nutch引擎的主要算法 [2]  。由於NDFS和MapReduce在Nutch引擎中有着良好的應用,所以它們於2006年2月被分離出來,成爲一套完整而獨立的軟件,並被命名爲Hadoop。到了2008年年初,hadoop已成爲Apache的頂級項目,包含衆多子項目,被應用到包括Yahoo在內的很多互聯網公司。

一,Google的三篇論文:

2003年Google發佈Google File System論文。(可擴展的分佈式文件系統)==》HDFS(Hadoop Distributed File System)

2004年公佈的 MapReduce論文。(分佈式並行計算的一套編程模型)==》MapReduce

2006年Google發佈Bigtable論文。(分佈式的結構化數據存儲系統)==》HBase

二,優點:

1,高可靠性:hadoop有主從節點,namenode和secondary namenode 能夠在主節點故障後迅速切換的從節點;

2,高擴展性:hadoop可以擴展到數以千計的集羣能夠隨時增加節點和減少節點調整硬件資源;

3,高效性:能夠在節點間快速的動態的遷移數據,能夠對大數據量通過多臺機器進行並行計算;

4,高容錯性:hadoop能夠保存多個副本,並且能夠自動分配,將數據分散到不同機架和機器上,如果硬盤壞掉了,調換後能夠進行對數據的從新分配;

5,低成本:hadoop是開源的,項目軟件成本低,並且能夠整合各種低廉的小型機進行並行計算,以低的投入獲得搞高的收益;

三,架構:

四,意義:

個人認爲,Hadoop的發展對大數據量處理有着深遠的意義,主要是Hadoop能夠進行離線和實時的集羣並行數據處理,並且有着高可用性;如果基於傳統數據庫和文件進行數據處理,不僅計算機性能上存在巨大瓶頸而且對文件的並行上也是個難題,Hadoop巧妙的使用集羣並行通過MapReduce模型對數據分組分發等數據的計算,對比傳統上的數據存儲形式,無疑Hadoop是質的提升;另一個方面Hadoop對數據的存儲有着搞容錯性,每個數據塊有三個副本,並且能夠基於HDFS之上有各種查詢引擎,比如Hive,HBase,Impala,Presto等等,包括一些流處理框架Strom,Spark,Flink等在當前互聯網行業業務上發揮着舉足輕重的作用。

五,作者Doug Cutting:

Doug Cutting是斯坦福大學的畢業生,大學時期因爲學費壓力投身於IT行業,做搜索引擎出身,其中Apache頂級項目Hadoop,Lucene,Nutch都是出自該大牛之手,現爲Apache基金會主席。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章