初識Apache Hadoop

Apache Hadoop是一套用於在由通用硬件構建的大型集羣上運行應用程序的框架。它實現了Map/Reduce編程範型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分佈式文件系統(HDFS),數據被存儲在計算節點上以提供極高的跨數據中心聚合帶寬。下面編者對於ApacheHadoop進行詳細介紹:

    一、什麼是Apache Hadoop

    1.概念:用來存儲、處理和分析大數據的開源框架。

    2.特點:分佈式,可擴展並且容錯

    3.使用成本:利用了產業標準硬件的能力,成本低。

    4.ApacheHadoop集羣框架:

Batch processing

Search engine

Analytic SQL

Machine learning

Stream processing

Other applications

workload management

Data  storage

Data   integration

    二、關於Apache Hadoop的幾個事實:

1.開源:Apache Hadoop本身是開源的

2. 大約十個公司的60多個committers:如cloudera,yahoo,facebook,apple等,對於Apache Hadoop發展有着重要作用。

3.幾百個編寫特性和修復bug的貢獻者

4. Apache Hadoop本身有很多項目、應用和工具等

    三、Hadoop生態:

    

wKiom1g72OSyBbU4AACySgJsXOo458.png-wh_50


     四、供應商集成:

wKiom1g72R2wW0u1AAF3qoknNuA327.png-wh_50

    五、瞭解發行版:

        1.Cloudera提供了CDHCloudera Manager

1CDH (Cloudera’s Distributionincluding Apache Hadoop)100%開源,爲企業準備的Hadoop和相關項目的發行版;集成了所有關鍵的Hadoop生態項目

wKioL1g72V2xa0KAAABsLqHqtfk628.jpg-wh_50

        

2.Hortonworks提供了HDP (HORTONW0RKS DATA PLATFORM)

 

wKiom1g72aKgOW1aAACMXuAGj0A919.png-wh_50

        

         3. Mapr:mapr匯聚數據平臺

wKiom1g72dyR1wj0AAGlRbxNSJU299.png-wh_50

 

         4.其他發行版:

 

wKioL1g72g-i0EXZAAD6ueYzeAk051.png-wh_50

    以上就是小編根據自己的實際經驗爲大家總結的Apache Hadoop基本知識,讓大家對於Hadoop有一個基本的框架認識。在這裏,也真誠建議大家平常多自主學習,無論是看一些大數據的書籍,還是關注一些大數據資訊,對於大家都是很有幫助和促進的。我個人在平時喜歡看大數據cn大數據學習中心這樣的微信服務號,經常有一些大數據最前端的資訊和一些免費的資源,對於我個人而言,幫助還是蠻大的,大家平常也可以多積累一些這方面資源,多多分享交流,共同進步!


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章