hadoop權威指南讀書總結

原創

2018-08-22 08:45

最近在看hadoop權威指南，鞏固一下hadoop的基礎知識。

首先，hadoop是什麼呢？

Hadoop起源於Nutch, 源起於實現對海量數據的處理方式，中文也稱之爲‘雲計算’。Hadoop就是雲計算中的一個開源項目，它克隆了Google運行系統的主要框架，包括文件系統HDFS,計算架構MapReduce及對於結構化數據處理的HBAse等。而基於Hadoop，又出現了許多的開源項目，比如Pig, Zookeeper, Hive等。

而簡化理解hadoop，則是一個通過併發驅動大量的服務器，對海量數據做運算的一個分佈式集羣。它旗下還有很多子項目，如下圖，下面分別對這些子項目做概述：

Core：一系列分佈式文件系統和通用I/O的組件和接口

Avro：一種提供高效，跨語言RPC的數據序列系統，持久化數據存儲

MapReduce：分佈式數據處理模式和執行環境，運行於大型商用機集羣

HDFS：分佈式文件系統，運行於大型商用機集羣

Pig：一種數據流語言和運行環境，用以檢索非常大的數據集。Pig運行在MapReduce和HDFS的集羣上。

Hbase：一個分佈式的，列存儲數據庫。Hbase使用HDFS作爲底層存儲，同事支持MapReduce的批量式計算和點查詢(隨機讀取

ZooKeeper：一個分佈式的，高可用性的協調服務。ZooKeeper提供分佈式鎖之類的基本服務用於構建分佈式應用。

Hive：分佈式數據倉庫。Hive管理HDFS中存儲的數據，並提供基於SQL的查詢語言(由運行時引擎翻譯成MapReduce作業，beeline引擎)用於查詢數據

Chukwa：分佈式數據收集和分析系統。Chukwa運行HDFs中存儲數據的收集器，它使用MapReduce來生產報告。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

hadoop權威指南讀書總結

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

Shell/Python中的用戶名獲取

android telephony 工作流程（二）--UICC上層實現框架

kafka要點總結

71道Android開發面試題

mmc io 性能測試工具(一)--kernel log的取出和篩選

android的消息處理機制（圖+源碼分析）——Looper,Handler,Message

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結