hadoop 初探

這個算是hadoop權威指南的讀書筆記吧

古代,人們用牛來拉重物,當一頭牛拉不動一根圓木時,他們不曾想過培育更大更壯的牛,同樣,我們也不需要嘗試開發超級計算機,而應試着結合使用更多計算機系統。

數據存儲和分析的思考

當單塊磁盤儲存容量出現瓶頸的時候,是否考慮可以使用更多的磁盤,而不是嘗試增大單塊磁盤的容量,另外一個問題是大數據的分析。而hadoop的核心功能就是提供這些數據的存儲和分析,對應到其組件就是 MapReduce 和HDFS。

數據庫系統的思考

關係型數據庫

Apache Hadoop 和Hadoop生態圈

Common

一組分佈式文件系統通用I/O的組件和接口

Avro

一種支持高效,跨語言的RPC以及永久存儲數據的序列化系統

MapReduce

分佈式數據處理模型和執行環境,運行於大型商用機集羣

HDFS

分佈式文件系統

Pig

一種數據流語言和運行環境,用以檢索非常大的數據集,Pig運行在MapReduce和HDFS的集羣之上,

Hive

一個分佈式,按列存儲的數據倉庫,Hive管理HDFS中存儲數據,並提供基於SQL的查詢語言(由運行時引擎翻譯成MapReduce作業)用以查詢數據

Hbase

一個分佈式,按列存儲數據庫,HBase使用HDFS作爲底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀取)

Zookeeper

一個分佈式,可用性的協調服務。Zookeeper提供分佈式鎖知類的基本服務用於構建分佈式應用


Sqoop

在數據庫和HDFS之間高效傳輸數據的工具

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章