Apache Hadoop是一套用於在由通用硬件構建的大型集羣上運行應用程序的框架。它實現了Map/Reduce編程範型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分佈式文件系統(HDFS),數據被存儲在計算節點上以提供極高的跨數據中心聚合帶寬。下面編者對於ApacheHadoop進行詳細介紹:
一、什麼是Apache Hadoop?
1.概念:用來存儲、處理和分析大數據的開源框架。
2.特點:分佈式,可擴展並且容錯
3.使用成本:利用了產業標準硬件的能力,成本低。
4.ApacheHadoop集羣框架:
Batch processing | Search engine | Analytic SQL | Machine learning | Stream processing | Other applications |
workload management | |||||
Data storage | |||||
Data integration |
二、關於Apache Hadoop的幾個事實:
1.開源:Apache Hadoop本身是開源的
2. 大約十個公司的60多個committers:如cloudera,yahoo,facebook,apple等,對於Apache Hadoop發展有着重要作用。
3.幾百個編寫特性和修復bug的貢獻者
4. Apache Hadoop本身有很多項目、應用和工具等
三、Hadoop生態:
四、供應商集成:
五、瞭解發行版:
1.Cloudera:提供了CDH和Cloudera Manager
(1)CDH (Cloudera’s Distributionincluding Apache Hadoop):100%開源,爲企業準備的Hadoop和相關項目的發行版;集成了所有關鍵的Hadoop生態項目
2.Hortonworks:提供了HDP (HORTONW0RKS DATA PLATFORM)
3. Mapr:mapr匯聚數據平臺
4.其他發行版:
以上就是小編根據自己的實際經驗爲大家總結的Apache Hadoop基本知識,讓大家對於Hadoop有一個基本的框架認識。在這裏,也真誠建議大家平常多自主學習,無論是看一些大數據的書籍,還是關注一些大數據資訊,對於大家都是很有幫助和促進的。我個人在平時喜歡看大數據cn和大數據學習中心這樣的微信服務號,經常有一些大數據最前端的資訊和一些免費的資源,對於我個人而言,幫助還是蠻大的,大家平常也可以多積累一些這方面資源,多多分享交流,共同進步!