初識Apache Hadoop

        Apache Hadoop是一套用於在由通用硬件構建的大型集羣上運行應用程序的框架。它實現了Map/Reduce編程範型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分佈式文件系(HDFS),數據被存儲在計算節點上以提供極高的跨數據中心聚合帶寬。下面編者對於ApacheHadoop進行詳細介紹:

一、  什麼是Apache Hadoop?

1.    概念:用來存儲、處理和分析大數據的開源框架。

2.    特點:分佈式,可擴展並且容錯

3.    使用成本:利用了產業標準硬件的能力,成本低。

4.    ApacheHadoop集羣框架:

Batch processing

Search engine

Analytic SQL

Machine learning

Stream processing

Other applications

workload management

Data  storage

Data  integration

    二、關於Apache Hadoop的幾個事實:

1.開源:Apache Hadoop本身是開源的

2. 大約十個公司的60多個committers:如cloudera,yahoo,facebook,apple等,對於Apache Hadoop發展有着重要作用。

3. 幾百個編寫特性和修復bug的貢獻者

4. Apache Hadoop本身有很多項目、應用和工具等

  三、Hadoop生態:

 

        

四、供應商集成:


  五、瞭解發行版:

             1. Cloudera:提供了CDH和Cloudera Manager

(1)CDH (Cloudera’s Distributionincluding Apache Hadoop):100%開源,爲企業準備的Hadoop和相關項目的發行版;集成了所有關鍵的Hadoop生態項目


        

 2. Hortonworks:提供了HDP (HORTONW0RKS DATA PLATFORM)


  3. Mapr:mapr匯聚數據平臺


      4.其他發行版:


       以上就是小編根據自己的實際經驗爲大家總結的Apache Hadoop基本知識,讓大家對於Hadoop有一個基本的框架認識。在這裏,也真誠建議大家平常多自主學習,無論是看一些大數據的書籍,還是關注一些大數據資訊,對於大家都是很有幫助和促進的。我個人在平時喜歡看大數據cn大數據學習中心這樣的微信服務號,經常有一些大數據最前端的資訊和一些免費的資源,對於我個人而言,幫助還是蠻大的,大家平常也可以多積累一些這方面資源,多多分享交流,共同進步!

發佈了26 篇原創文章 · 獲贊 9 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章