Pig:
Hadoop的客戶端;Pig Latin類似sql的面向數據流的語言;pig可以把pig latin映射爲mapreduce作業上傳到集羣運行,減少用戶編寫java的程序;
三種運行方式:shell,腳本,嵌入式
Zookeeper:
Google Chubby的開源實現;通信協調軟件;例如,防止單點失效、處理負載均衡、確認消息是否準確到達;
hbase中數據節點之間協調是通過zookeeper實現的;
Hbase:
hadoop database;是apache的的一個頂級項目;Google Bigtable的開源實現,用一張表就夠了;可以集羣化,可以用多臺節點,分佈式;可以使用shell、web、api等多種方式訪問;是面向列的數據庫,列式數據庫;適合高速讀寫的場景,適合key-value查詢場景;使用HQL查詢語言;NoSQL的典型產品;Not only sql;
Hive:
SQL到mapreduce的映射器;輸入sql語句,對數據進行操作;HiveQL,跟標準幾乎相同,但是不支持更新、索引和事務;
提供shell、JDBC/ODBC、web等接口;
Sqoop:
用於在hadoop和關係型數據庫之間交換數據;通過JDBC接口連入關係型數據庫;滿足高負荷情形的性能要求;
Avro:
數據序列化的工具;
Chukwa:
數據採集和分析框架;
主要進行日誌採集和分析;
收集節點的日誌數據,定時將數據寫入hadoop集羣;定時啓動mapreduce作業數據進行處理加工;
Cassandra:
NoSQL,分佈式的key-value型數據庫;與Hbase類似;只有順序寫,沒有隨機寫的設計;
參考:煉數成金的hadoop課程