Hadoop工具生態系統生長迅速,以下是IT經理網整理的最新Hadoop工具資源,供IT經理日常參考,歡迎讀者來信或留言補充。
Hadoop
Apache hadoop項目負責開發可靠的、可擴展的分佈式計算開源軟件。
HDFS
分佈式文件系統提供高速的應用數據訪問。
MapReduce
在計算機集羣上進行大數據分佈式處理的軟件框架。
亞馬遜Elastic MapReduce
亞馬遜Elastic MapReduce是一種web服務,能讓企業、研究人員、數據分析師和開發者低成本快速處理海量數據。該服務是託管於亞馬遜彈性雲(EC2)和亞馬遜S3存儲雲上的web大規模基礎架構上的Hadoop框架。
網址:aws.amazon.com/elasticmapreduce/
Cloudera Hadoop發行版(CDH)
Cloudera的Hadoop發行版(CDH)爲基於Hadoop的數據管理平臺樹立了新的標杆。
ZooKeeper
針對分佈式應用的高性能協調服務。ZooKeeper爲配置信息、命名提供集中化管理服務,支持分佈式同步,並提供羣組服務。
網址:hadoop.apache.org/zookeeper/
HBase
可擴展的分佈式數據庫,支持大表(big table)的結構化數據存儲。
Avro
數據序列化系統。與Thrift和Protocolbuffers類似。
Sqoop
Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:
- ● 將單獨的表或者整個數據庫導入HDFS文件
- ● 通用Java庫支持與導入數據的互動
- ● 支持將SQL數據庫直接導入你的Hive數據倉庫
網址:cloudera.com/downloads/sqoop/
Flume
Flume是一個分佈式高可靠的大數據傳輸服務。
網址:archive.cloudera.com/cdh/3/flume/
Hive
Hive是基於Hadoop的數據倉庫基礎架構,提供的工具能進行簡便的數據彙總、ad-hoc查詢,以及對存儲在Hadoop文件中的大數據集的分析。Hive提供一種簡單易用的查詢語言——Hive QL,該語言基於SQL,這意味着那些對SQL熟悉的用戶可以像使用SQL數據庫一樣查詢大數據。Hive QL還雲尋傳統的map/reduce程序員插入他們自己的mappers和reducers,進行更爲複雜的分析。
Pig
Pig是一種高階數據流語言和並行計算的執行框架。Apache Pig是一個大數據集分析平臺,提供了一種表達數據分析程序的高階語言,以及評估這些程序的基礎架構。Pig程序的最大優點是其架構能爲底層並行化進行調整,從而能處理非常大規模的數據集。
Oozie
Oozie 是一個開源的工作流和協作服務引擎,爲管理Apache hadoop數據處理任務提供工作流/協作服務。Oozie 是可擴展的、可伸縮的面向數據的服務,運行在Hadoop 平臺上,協調Hadoop上運行的不同任務(包括HDFS,Pig和MapReduce)。
Oozie 包括一個離線的Hadoop處理的工作流解決方案,以及一個查詢處理 API。
Cascading
Cascading是一個查詢API和查詢計劃器,被用於定義和執行Hadoop集羣上運行的複雜、可自由擴展、可容錯的數據處理工作流。
Cascalog
Cascalog一種能使在Hadoop上使用Clojure處理數據變得簡單直觀的工具。Cascalog綜合了兩大頂尖技術:Clojure和Hadoop,同時讓Datalog煥發青春。Cascalog的特點是高性能、靈活和魯棒。
網址:github.com/nathanmarz/cascalog
HUE
Hue是運營和開發Hadoop應用的圖形化用戶界面。Hue程序被整合到一個類似桌面的環境,以web程序的形式發佈,對於單獨的用戶來說不需要額外的安裝。
網址:archive.cloudera.com/cdh3/hue 更多信息:Cloudera blog
Chukwa
Chukwa是面向大型分佈式系統的數據採集系統。Chukwa基於Hadoop HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和容錯性。Chukwa還提供一個靈活而強大的工具包,用於顯示、監控和分析分析結果,更好地利用所收集的數據。
網址:incubator.apache.org/chukwa/
Mahout
一種可擴展的機器學習和數挖掘庫。