Hadoop-入門-01

一、 Hadoop是什麼?

        Hadoop是一個大家族,是一個開源的生態系統,是一個分佈式運行系統,是基於Java編程語言的架構。不過它最高明的技術還是HDFS、MapReduce、Yarn,使得它可以分佈式處理海量數據。


       1、HDFS(分佈式文件系統):

它與現存的文件系統不同的特性有很多,比如高度容錯(即使中途出錯,也能繼續運行),支持多媒體數據和流媒體數據訪問,高效率訪問大型數據集合,數據保持嚴謹一致,部署成本降低,部署效率提交等,如圖是HDFS的基礎架構

    

      2、MapReduce(並行計算架構):

它可以將計算任務拆分成大量可以獨立運行的子任務,接着並行運算,另外會有一個系統調度的架構負責收集和彙總每個子任務的分析結果。其中 包含映射算法與規約算法。


     3、Yarn()

        資源調度管理集羣(可以理解爲一個分佈式的操作系統,管理和分配集羣硬件資源)

二、Hadoop發展史

      1、最早來自於google的三大技術論文:GFS/MAPREDUCE/BIG TABLE;谷歌這三大論文講解了谷歌是如何解決海量數據問題的。

      2、Hadoop作者doug cutting 當時正在負責爬蟲項目,lucene(搜索引擎),對於大數據場景doug cutting遇到了與谷歌一樣的困難;後來經過doug cutting山寨,出現了java版本的hdfs、mapreduce、hbase併成爲apache的頂級項目;經過演化hadoop組件又多了個yarn,隨着大數據的火爆,圍繞hadoop出現了大量的組件,形成了龐大的hadoop生態圈。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章