Hadoop特點
- 擴容能力:在計算機集羣內分配數據並完成計算任務,集羣可以方便的擴展到數以千計個節點。
- 低成本:通過普通廉價的機器組成服務器集羣來分發以及處理數據,以至於成本很低。
- 高效率:可以在節點之間動態並行的移動數據,使得速度非常快。
- 可靠性:能自動維護數據的多份複製,並且在任務失敗後能自動的重新部署(redeploy)計算任務。
Hadoop的發行版本
- Apache Hadoop 原始版本:–學習使用
- 軟件發行版本:ClouderaManager CDH 版本–生產環境
- 免費開源版本HoryonWorks HDP版本–生產環境
Apache Hadoop 版本更迭
0.x:最早的一個開源版本
1.x:修復上一個版本的bug
2.x:架構產生重大變化,引入yarn平臺等許多新特性
3.x:EC技術、yarn時間軸服務等新特性
Hadoop 的優缺點
優點:
- 具有存儲和處理數據能力的高可靠性
- 通過可用的計算機集羣分配數據,完成存儲和計算任務,這些集羣可以方便地擴展到數以千計的節點中,具有高擴展性。
- 能夠在節點之間進行動態地遷移數據,並保證各個節點的動態平衡;處理速度非常快,具有高效性。
- 能夠自動保存數據的多個副本,並且能夠自動將失敗的任務重新分配,具有高容錯性。
缺點:
- 不適用於低延遲數據訪問
- 不能高效存儲大量小文件
- 不支持多用戶寫入並任意修改文件