大數據Hadoop相關概念及其技術生態圈

Google 大數據技術三篇論文

GFS、 BigTable、 GMapReduce
Google File System中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System中文版_1.0.pdf
Google Bigtable中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf
Google MapReduce中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-MapReduce中文版_1.0.pdf

人們口中的大數據一般指
源於谷歌三篇關於海量數據存儲和計算的三篇論文發展而來的

Hadoop和其技術生態圈

在這裏插入圖片描述
Apache™Hadoop®項目開發了用於可靠,可擴展的分佈式計算的開源軟件。

Hadoop 模仿了Google大數據技術
Hadoop的 兩個核心概念

  1. HDFS :分佈式文件系統(Hadoop Distributed File System)
  2. MapReduce:並行計算處理框架,實現任務分解和調度

生態圈就像動物園

ZooKeeper

在這裏插入圖片描述
Apache ZooKeeper致力於開發和維護開源服務器,實現高度可靠的分佈式協調。

Flume

在這裏插入圖片描述
Flume是一種分佈式用於有效地收集,聚合和移動大量日誌數據的技術。它具有基於流數據流的簡單靈活的架構。
在這裏插入圖片描述

HBase

在這裏插入圖片描述
Apache HBase™是Hadoop數據庫,是一個分佈式,可擴展的大數據存儲。

Hive

在這裏插入圖片描述
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的SQL查詢功能,可以將SQL語句轉換爲MapReduce任務進行運行。

Hue

在這裏插入圖片描述
Hue是用於數據倉庫的開放源代碼的SQL工作臺

Impala

在這裏插入圖片描述
Impala是Cloudera公司主導開發的新型查詢系統,相對hive來說, Impala不需要把中間結果寫入磁盤,省掉了大量的I/O開銷,從而查詢更快

Kudu

在這裏插入圖片描述
作爲開源Apache Hadoop生態系統的新成員,Apache Kudu完善了Hadoop的存儲層,以實現對快速數據的快速分析.

Oozie

在這裏插入圖片描述
Oozie是一個用於管理Apache Hadoop作業的工作流程調度程序系統。

Spark

在這裏插入圖片描述

Sqoop

在這裏插入圖片描述
Apache Sqoop(TM)是一種工具,用於在Apache Hadoop和結構化數據存儲(如關係數據庫)之間高效傳輸批量數據。

YARN

YARN的基本思想是將資源管理和作業調度/監視的功能分解爲單獨的守護進程。
在這裏插入圖片描述

Pig

在這裏插入圖片描述
Apache Pig是一個分析大型數據集的平臺,它包含用於表達數據分析程序的高級語言,以及用於評估這些程序的基礎結構。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章