Apache Hadoop 項目介紹

 

Apache Hadoop 項目開發的開源軟件提供了可靠、可伸縮、分佈式的計算。它是Google類似技術的開源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。

爲什麼要開發這樣的系統呢?“When data exists in this quantity (terabit/day or petabit/day), one of the processing limitations is that it takes a significant amount of time to move the data. Apache Hadoop has emerged to address these concerns with its unique approach of moving the work to the data and not the other way around.” 簡單翻譯就是,當數據量非常龐大的時候,移動數據時間也非常龐大。爲了處理這個挑戰,Hadoop採用將數據處理工作移動到數據處而不是反向移動的方式。

Hadoop 包括如下的子項目:

  • Hadoop Common : 項目共用軟件包
  • Chukwa : 數據收集系統以管理大型分佈式系統
  • HBase : 可伸縮、分佈式、結構化數據庫
  • HDFS : 分佈式文件系統
  • Hive : 數據倉庫以提供數據整合以及ad hoc查詢
  • MapReduce : 分佈式大型數據處理軟件框架
  • Pig : 數據流語言以及平行化執行框架
  • ZooKeeper : 爲分佈式應用程序提供高性能協調服務

 

Hadoop的工作原理可以用下面的圖簡單描述:Hadoop

還有很多基於Hadoop開發的項目:

如果你想進一步瞭解Hadoop,《Hadoop權威指南(中文版)》將是你第一選擇了,它是Hadoop的開發者寫的,所以相當的權威性。Hadoop

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章