Hadoop生態系統工具指南

img

Hadoop工具生態系統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。

Hadoop

Apache hadoop項目負責開發可靠的、可擴展的分佈式計算開源軟件。

網址:hadoop.apache.org

 

HDFS

分佈式文件系統提供高速的應用數據訪問。

網址:hadoop.apache.org/hdfs/

 

MapReduce

在計算機集羣上進行大數據分佈式處理的軟件框架。

 

亞馬遜Elastic MapReduce

亞馬遜Elastic MapReduce是一種web服務,能讓企業、研究人員、數據分析師和開發者低成本快速處理海量數據。該服務是託管於亞馬遜彈性雲(EC2)和亞馬遜S3存儲雲上的web大規模基礎架構上的Hadoop框架。

網址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop發行版(CDH)

Cloudera的Hadoop發行版(CDH)爲基於Hadoop的數據管理平臺樹立了新的標杆。

網址:cloudera.com/hadoop

 

ZooKeeper

針對分佈式應用的高性能協調服務。ZooKeeper爲配置信息、命名提供集中化管理服務,支持分佈式同步,並提供羣組服務。

網址:hadoop.apache.org/zookeeper/

 

HBase

可擴展的分佈式數據庫,支持大表(big table)的結構化數據存儲。

網址:hbase.apache.org

 

Avro

數據序列化系統。與ThriftProtocolbuffers類似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:

    • ● 將單獨的表或者整個數據庫導入HDFS文件
    • ● 通用Java庫支持與導入數據的互動
    • ● 支持將SQL數據庫直接導入你的Hive數據倉庫

網址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一個分佈式高可靠的大數據傳輸服務。

網址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基於Hadoop的數據倉庫基礎架構,提供的工具能進行簡便的數據彙總、ad-hoc查詢,以及對存儲在Hadoop文件中的大數據集的分析。Hive提供一種簡單易用的查詢語言——Hive QL,該語言基於SQL,這意味着那些對SQL熟悉的用戶可以像使用SQL數據庫一樣查詢大數據。Hive QL還雲尋傳統的map/reduce程序員插入他們自己的mappers和reducers,進行更爲複雜的分析。

網址:hive.apache.org

 

Pig

Pig是一種高階數據流語言和並行計算的執行框架。Apache Pig是一個大數據集分析平臺,提供了一種表達數據分析程序的高階語言,以及評估這些程序的基礎架構。Pig程序的最大優點是其架構能爲底層並行化進行調整,從而能處理非常大規模的數據集。

網址:pig.apache.org

 

Oozie

Oozie 是一個開源的工作流和協作服務引擎,爲管理Apache hadoop數據處理任務提供工作流/協作服務。Oozie 是可擴展的、可伸縮的面向數據的服務,運行在Hadoop 平臺上,協調Hadoop上運行的不同任務(包括HDFS,Pig和MapReduce)。

Oozie 包括一個離線的Hadoop處理的工作流解決方案,以及一個查詢處理 API。

網址:yahoo.github.com/oozie

 

Cascading

Cascading是一個查詢API和查詢計劃器,被用於定義和執行Hadoop集羣上運行的複雜、可自由擴展、可容錯的數據處理工作流。

網址:cascading.org

 

Cascalog

Cascalog一種能使在Hadoop上使用Clojure處理數據變得簡單直觀的工具。Cascalog綜合了兩大頂尖技術:Clojure和Hadoop,同時讓Datalog煥發青春。Cascalog的特點是高性能、靈活和魯棒。

網址:github.com/nathanmarz/cascalog

 

HUE

Hue是運營和開發Hadoop應用的圖形化用戶界面。Hue程序被整合到一個類似桌面的環境,以web程序的形式發佈,對於單獨的用戶來說不需要額外的安裝。

網址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera blog

 

Chukwa

Chukwa是面向大型分佈式系統的數據採集系統。Chukwa基於Hadoop HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和容錯性。Chukwa還提供一個靈活而強大的工具包,用於顯示、監控和分析分析結果,更好地利用所收集的數據。

網址:incubator.apache.org/chukwa/

 

Mahout

一種可擴展的機器學習和數挖掘庫。

網址:mahout.apache.org



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章