Hadoop初窺

原創

沈波

2020-02-22 06:49

Hadoop初窺

Hadoop歷史

雛形開始於2002年的Apache的Nutch，Nutch是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

隨後在2003年Google發表了一篇技術學術論文谷歌文件系統（GFS）。GFS也就是google File System，google公司爲了存儲海量搜索數據而設計的專用文件系統。

2004年Nutch創始人Doug Cutting基於Google的GFS論文實現了分佈式文件存儲系統名爲NDFS。

2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型，用於大規模數據集（大於1TB）的並行分析運算。

2005年Doug Cutting又基於MapReduce，在Nutch搜索引擎實現了該功能。

2006年，Yahoo僱用了Doug Cutting，Doug Cutting將NDFS和MapReduce升級命名爲Hadoop，Yahoo開建了一個獨立的團隊給Goug Cutting專門研究發展Hadoop。

不得不說Google和Yahoo對Hadoop的貢獻功不可沒。

Hadoop核心

Hadoop的核心就是HDFS和MapReduce，而兩者只是理論基礎，不是具體可使用的高級應用，Hadoop旗下有很多經典子項目，比如HBase、Hive等，這些都是基於HDFS和MapReduce發展出來的。要想了解Hadoop，就必須知道HDFS和MapReduce是什麼。

HDFS

HDFS（Hadoop Distributed File System，Hadoop分佈式文件系統），它是一個高度容錯性的系統，適合部署在廉價的機器上。HDFS能提供高吞吐量的數據訪問，適合那些有着超大數據集（large data set）的應用程序。

HDFS的設計特點是：

1、大數據文件，非常適合上T級別的大文件或者一堆大數據文件的存儲，如果文件只有幾個G甚至更小就沒啥意思了。

2、文件分塊存儲，HDFS會將一個完整的大文件平均分塊存儲到不同計算器上，它的意義在於讀取文件時可以同時從多個主機取不同區塊的文件，多主機讀取比單主機讀取效率要高得多得都。

3、流式數據訪問，一次寫入多次讀寫，這種模式跟傳統文件不同，它不支持動態改變文件內容，而是要求讓文件一次寫入就不做變化，要變化也只能在文件末添加內容。

4、廉價硬件，HDFS可以應用在普通PC機上，這種機制能夠讓給一些公司用幾十臺廉價的計算機就可以撐起一個大數據集羣。

5、硬件故障，HDFS認爲所有計算機都可能會出問題，爲了防止某個主機失效讀取不到該主機的塊文件，它將同一個文件塊副本分配到其它某幾個主機上，如果其中一臺主機失效，可以迅速找另一塊副本取文件。

HDFS的關鍵元素：

Block：將一個文件進行分塊，通常是64M。

NameNode：保存整個文件系統的目錄信息、文件信息及分塊信息，這是由唯一一臺主機專門保存，當然這臺主機如果出錯，NameNode就失效了。在Hadoop2.*開始支持activity-standy模式----如果主NameNode失效，啓動備用主機運行NameNode。

DataNode：分佈在廉價的計算機上，用於存儲Block塊文件。

MapReduce

通俗說MapReduce是一套從海量·源數據提取分析元素最後返回結果集的編程模型，將文件分佈式存儲到硬盤是第一步，而從海量數據中提取分析我們需要的內容就是MapReduce做的事了。

下面以一個計算海量數據最大值爲例：一個銀行有上億儲戶，銀行希望找到存儲金額最高的金額是多少，按照傳統的計算方式，我們會這樣：

Java代碼  

Long moneys[] ...  

Long max = 0L;  

for(int i=0;i<moneys.length;i++){  

  if(moneys[i]>max){  

    max = moneys[i];  

  }  

}

如果計算的數組長度少的話，這樣實現是不會有問題的，還是面對海量數據的時候就會有問題。

MapReduce會這樣做：首先數字是分佈存儲在不同塊中的，以某幾個塊爲一個Map，計算出Map中最大的值，然後將每個Map中的最大值做Reduce操作，Reduce再取最大值給用戶。

MapReduce的基本原理就是：將大的數據分析分成小塊逐個分析，最後再將提取出來的數據彙總分析，最終獲得我們想要的內容。當然怎麼分塊分析，怎麼做Reduce操作非常複雜，Hadoop已經提供了數據分析的實現，我們只需要編寫簡單的需求命令即可達成我們想要的數據。

總結

總的來說Hadoop適合應用於大數據存儲和大數據分析的應用，適合於服務器幾千臺到幾萬臺的集羣運行，支持PB級的存儲容量。

Hadoop典型應用有：搜索、日誌處理、推薦系統、數據分析、視頻圖像分析、數據保存等。

但要知道，Hadoop的使用範圍遠小於SQL或Python之類的腳本語言，所以不要盲目使用Hadoop，看完這篇試讀文章，我知道Hadoop不適用於我們的項目。不過Hadoop作爲大數據的熱門詞，我覺得一個狂熱的編程愛好者值得去學習瞭解，或許你下一個歸宿就需要Hadoop人才，不是嗎。

沈波

發佈了25 篇原創文章 · 獲贊 18 · 訪問量 16萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop初窺

Hadoop初窺

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

Garnet：微軟官方基於.NET開源的高性能分佈式緩存存儲數據庫

Flink執行圖

Java響應式編程

評估統計算法在銀行僞造鈔票檢測中的價值

Dokcer部署Kafka集羣

【Linux命令學習】lsof查看打開的文件

二、決策樹（Decision Tree）

深入解析C++中的構造函數和析構函數

各種距離彙總

數據結構中各類排序算法

統計學習方法——CART, Bagging, Random Forest, Boosting

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結