如何選擇不同的Hadoop發行版

【TechTarget中國原創】O'Reilly Strata是IT業界最知名也是規模最大的數據管理大會,在本次的Strata大會中,Hadoop成爲了其中最熱門的話題。EMC公司在本次大會上發佈的Pivotal HD(Hadoop發行版)受到了廣泛的關注。而目前在Apache Hadoop發行版越來越多的情況下,如何進行區分?如何選擇最適合自己的解決方案?數據庫技術顧問Curt Monash對提供商以及他們各自的Hadoop發行版進行了對比,希望對您進一步瞭解Hadoop生態系統起到一定幫助。

  首先要了解什麼是Hadoop發行版(Hadoop distribution),簡單來說它就是基於開源的Apache Hadoop進行改造的商業解決方案,其中包括一系列定製的管理工具和軟件。而事實上,Apache Hadoop本身也存在着一些版本差異,包括:

  • Hortonworks主要專注於Hadoop 1(不包括YARN、HCatalog等),也是因爲其技術比較成熟且能夠投入生產環境。
  • Cloudera發行版包括Hadoop 1和Hadoop 2兩種選擇,但Cloudera不建議將Hadoop 2投入生產環境。
  • 一些新晉的發行版提供商傾向於使用Hadoop 2。

  不同的提供商還會選擇在其發行版當中添加不同的Apache Hadoop子項目,如Hive、Zookeeper等。另外還會添加一些專有代碼作爲補充甚至替換原始的Apache Hadoop代碼,這些代碼主要用來提升Hadoop分佈式文件系統(HDFS)的性能,還有一些是新的管理工具。發行版提供商的管理套件是其主要的增值項目,其中最明顯的就是Cloudera。而Hortonworks則選擇將開源的Ambari添加到管理工具當中。

  用戶選擇Hadoop發行版的另外一個原因是廠商會提供相關的技術支持,因爲企業內部對於Hadoop的部署和使用經驗不足。ClouderaHortonworks的技術支持是業界最佳的,同時一些大型廠商如Oracle等也會提供一些級別的技術支持,比如在Oracle大數據一體機上面提供Tier 1技術支持。

  以下的幾個提供商當中,我會列出其各自的優勢,用戶可以根據自己的需求選擇不同的Hadoop供應商:

  Cloudera

  • Cloudera的Hadoop管理工具非常成熟
  • Cloudera還提供了應用導航的功能
  • Cloudera在Hadoop領域是非常有經驗的
  • Cloudera對於Hadoop的發展起着重要作用
  • Cloudera擁有廣泛的合作伙伴支持
  • Cloudera專攻Hadoop,同時資金充沛

  Hortonworks

  • Hortonworks擁有大量的Hadoop專家,同時對Hadoop的發展也起到了重要作用
  • Hortonworks也擁有廣泛的合作伙伴支持
  • Hortonworks與Cloudera很相似,也專攻Hadoop
  • Hortonworks對專有代碼的依賴低於Cloudera,因此用戶不必擔心“廠商鎖定”問題。

  Intel

  • Intel的Hadoop性能很好
  • Intel的Hadoop發行版最先進入中國市場(在中國市場的一大重要優勢)

  EMC/Pivotal/Greenplum

  • 使用Greenplum數據庫的用戶別猶豫了,就選擇新的Pivotal HD吧

  MapR

  • 某種程度上說MapR的Hadoop發行版在性能方面具備優勢

  IBM

  • 信任IBM的服務就選擇它的Hadoop發行版
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章