hadoop權威指南讀書總結

最近在看hadoop權威指南,鞏固一下hadoop的基礎知識。

首先,hadoop是什麼呢?

Hadoop起源於Nutch, 源起於實現對海量數據的處理方式,中文也稱之爲‘雲計算’。Hadoop就是雲計算中的一個開源項目,它克隆了Google運行系統的主要框架,包括文件系統HDFS,計算架構MapReduce及對於結構化數據處理的HBAse等。而基於Hadoop,又出現了許多的開源項目,比如Pig, Zookeeper, Hive等。

而簡化理解hadoop,則是一個通過併發驅動大量的服務器,對海量數據做運算的一個分佈式集羣。它旗下還有很多子項目,如下圖,下面分別對這些子項目做概述:


Core: 一系列分佈式文件系統和通用I/O的組件和接口

Avro:一種提供高效, 跨語言RPC的數據序列系統,持久化數據存儲

MapReduce: 分佈式數據處理模式和執行環境,運行於大型商用機集羣

HDFS: 分佈式文件系統,運行於大型商用機集羣

Pig: 一種數據流語言和運行環境,用以檢索非常大的數據集。Pig運行在MapReduce和HDFS的集羣上。

Hbase:一個分佈式的,列存儲數據庫。Hbase使用HDFS作爲底層存儲,同事支持MapReduce的批量式計算和點查詢(隨機讀取

ZooKeeper:一個分佈式的,高可用性的協調服務。ZooKeeper提供分佈式鎖之類的基本服務用於構建分佈式應用。

Hive: 分佈式數據倉庫。Hive管理HDFS中存儲的數據,並提供基於SQL的查詢語言(由運行時引擎翻譯成MapReduce作業,beeline引擎)用於查詢數據

Chukwa:分佈式數據收集和分析系統。Chukwa運行HDFs中存儲數據的收集器,它使用MapReduce來生產報告。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章