Hadoop核心介紹課程筆記

Hadoop歷史

雛形開始於2002年的Apache的Nutch,Nutch是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
隨後在2003年Google發表了一篇技術學術論文谷歌文件系統(GFS)。GFS也就是google File System,google公司爲了存儲海量搜索數據而設計的專用文件系統。
2004年Nutch創始人Doug Cutting基於Google的GFS論文實現了分佈式文件存儲系統名爲NDFS。
2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型,用於大規模數據集(大於1TB)的並行分析運算。
2005年Doug Cutting又基於MapReduce,在Nutch搜索引擎實現了該功能。
2006年,Yahoo僱用了Doug Cutting,Doug Cutting將NDFS和MapReduce升級命名爲Hadoop,Yahoo開建了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。
Google和Yahoo對Hadoop的貢獻功不可沒。

Hadoop核心

Hadoop的核心是HDFS和Map-Reduce,而兩者只是理論基礎,不是具體可使用的高級應用,Hadoop生態有很多經典子項目,比如HBase、Hive等,這些都是基於HDFS和MapReduce發展出來的。要想了解Hadoop,就必須知道HDFS和MapReduce是什麼。

HDFS

HDFS(Hadoop Distributed File System,Hadoop分佈式文件系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問,適合那些有着超大數據集(large data set)的應用程序。

HDFS的設計特點是:

大數據文件,非常適合上T級別的大文件或者一堆大數據文件的存儲,如果文件只有幾個G甚至更小就沒啥意思了。
文件分塊存儲,HDFS會將一個完整的大文件平均分塊存儲到不同計算器上,它的意義在於讀取文件時可以同時從多個主機取不同區塊的文件,多主機讀取比單主機讀取效率要高得多得都。
流式數據訪問,一次寫入多次讀寫,這種模式跟傳統文件不同,它不支持動態改變文件內容,而是要求讓文件一次寫入就不做變化,要變化也只能在文件末添加內容。
廉價硬件,HDFS可以應用在普通PC機上,這種機制能夠讓給一些公司用幾十臺廉價的計算機就可以撐起一個大數據集羣。
硬件故障,HDFS認爲所有計算機都可能會出問題,爲了防止某個主機失效讀取不到該主機的塊文件,它將同一個文件塊副本分配到其它某幾個主機上,如果其中一臺主機失效,可以迅速找另一塊副本取文件。

HDFS的關鍵元素:

Block:將一個文件進行分塊,通常是64M,公司裏都是128M。每一個blok會在多個datanode上存儲多份副本,默認爲3份。[這些設置都能夠通過配置文件進行更改]
NameNode:主要負責存儲一些metadata信息,主要包括文件目錄、block和文件對應關係,以及block和datanote的對應關係,這是由唯一一臺主機專門保存,當然這臺主機如果出錯,NameNode就失效了。在Hadoop2.*開始支持activity-standy模式----如果主NameNode失效,啓動備用主機運行NameNode。
DataNode:負責存儲數據,高度的容錯性大部分在datanode上實現的[還有一部分容錯性是體現在namenode和secondname,還有jobtracker的容錯等]。DataNode分佈在廉價的計算機上,用於存儲Block塊文件。

HDFS優點:

高吞吐量訪問:HDFS的每個block分佈在不同的rack上,在用戶訪問時,HDFS會計算使用最近和訪問量最小的服務器給用戶提供。由於block在不同的rack上都有備份,所以不再是單數據訪問,所以速度和效率是非常快的。另外HDFS可以並行從服務器集羣中讀寫,增加了文件讀寫的訪問帶寬。
高容錯性:上面簡單的介紹了一下高度容錯。系統故障是不可避免的,如何做到故障之後的數據恢復和容錯處理是至關重要的。HDFS通過多方面保證數據的可靠性,多分複製並且分佈到物理位置的不同服務器上,數據校驗功能、後臺的連續自檢數據一致性功能,都爲高容錯提供了可能。
容量擴充:因爲HDFS的block信息存放到namenode上,文件的block分佈到datanode上,當擴充的時候,僅僅添加datanode數量,系統可以在不停止服務的情況下做擴充,不需要人工干預。

HDFS常見命令

HDFS上的數據,分佈在不同的地方,我們有一些命令可以用於 增加/查看/刪除 等數據操作。
#顯示/下的所有文件夾信息
hadoop fs -ls /

#遞歸顯示所有文件夾和子文件(夾)
hadoop fs -lsr

#創建/user/hadoop目錄
hadoop fs -mkdir /user/hadoop

#把a.txt放到集羣/user/hadoop/文件夾下
hadoop fs -put a.txt /user/hadoop/

#把集羣上的/user/hadoop/a.txt拉到本地/目錄下
hadoop fs -get /user/hadoop/a.txt /

#集羣上覆制文件
hadoop fs -cp src dst

#集羣上移動文件
hadoop fs -mv src dst

#查看集羣上文件/user/hadoop/a.txt的內容
hadoop fs -cat /user/hadoop/a.txt

#刪除集羣上/user/hadoop/a.txt文件
hadoop fs -rm /user/hadoop/a.txt

#刪除目錄和目錄下所有文件
hadoop fs -rmr /user/hadoop/a.txt

#與hadoop fs -put功能類似
hadoop fs -copyFromLocal localsrc dst

#將本地文件上傳到hdfs,同時刪除本地文件
hadoop fs -moveFromLocal localsrc dst

MapReduce

通俗說MapReduce是一套從海量·源數據提取分析元素最後返回結果集的編程模型,將文件分佈式存儲到硬盤是第一步,而從海量數據中提取分析我們需要的內容就是MapReduce做的事了。

下面以一個計算海量數據最大值爲例:一個銀行有上億儲戶,銀行希望找到存儲金額最高的金額是多少,按照傳統的計算方式,我們會這樣:

Long moneys[] ...  
Long max = 0L;  
for(int i=0;i<moneys.length;i++){  
  if(moneys[i]>max){  
    max = moneys[i];  
  }  
}

如果計算的數組長度少的話,這樣實現是不會有問題的,還是面對海量數據的時候就會有問題。
在這裏插入圖片描述
MapReduce會這樣做:首先數字是分佈存儲在不同塊中的,以某幾個塊爲一個Map,計算出Map中最大的值,然後將每個Map中的最大值做Reduce操作,Reduce再取最大值給用戶。

MapReduce的基本原理就是:將大的數據分析分成小塊逐個分析,最後再將提取出來的數據彙總分析,最終獲得我們想要的內容。當然怎麼分塊分析,怎麼做Reduce操作非常複雜,Hadoop已經提供了數據分析的實現,我們只需要編寫簡單的需求命令即可達成我們想要的數據。

總結

總的來說Hadoop適合應用於大數據存儲和大數據分析的應用,適合於服務器幾千臺到幾萬臺的集羣運行,支持PB級的存儲容量。

Hadoop典型應用有:搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章