hadoop實戰一

今天開始hadoop學習

首先我們要知道什麼是hadoophadoop能做那些事,爲什麼要選擇hadoop做這些事。

 1,什麼是Hadoop

Hadoop 由 Apache Software Foundation 公司於 2005 年秋天作爲 Lucene 的子項目 Nutch 的一部分正式引入。它受到最先由 Google Lab 開發的 MapReduce 和 Google File System 的啓發。2006 年 月份,MapReduce 和 Nutch Distributed File System (NDFS) 分別被納入稱爲 Hadoop 的項目中。

Hadoop並不僅僅是一個用於存儲的分佈式文件系統,而是設計用來在由通用計算設備組成的大型集羣上執行分佈式應用的基礎框架Apache基金會開發。用戶可以在不瞭解分佈式底層細節的情況下,開發分佈式程序。充分利用集羣的威力高速運算和存儲。簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。

2,Hadoop的體系結構

 

   3,Hadoop框架的核心:MapReduceHDFS

   4,爲什麼選擇hadoop

下面列舉hadoop主要的一些特點:

  擴容能力:能可靠地存儲和處理千兆字節(PB)數據。

  成本低:可以通過普通機器組成的服務器羣來分發以及處理數據。

  高效率:通過分發數據,hadoop可以在數據所在的節點上並行地處理它們,這使得處理非常的快速。

   可靠性hadoop能自動地維護數據的多份複製,並且在任務失敗後能自動地重新部署計算任務。

  5,使用場景

    個人覺得最適合的就是海量數據的分析,其實Google最早提出MapReduce也就是爲了海量數據分析。同時HDFS最早是爲了搜索引擎實現而開發的,後來才被用於分佈式計算框架中。海量數據被分割於多個節點,然後由每一個節點並行計算,將得出的結果歸併到輸出。同時第一階段的輸出又可以作爲下一階段計算的輸入,因此可以想象到一個樹狀結構的分佈式計算圖,在不同階段都有不同產出,同時並行和串行結合的計算也可以很好地在分佈式集羣的資源下得以高效的處理。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章