Google 大數據技術三篇論文
GFS、 BigTable、 GMapReduce
Google File System中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-File-System中文版_1.0.pdf
Google Bigtable中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-Bigtable中文版_1.0.pdf
Google MapReduce中文版:http://blog.bizcloudsoft.com/wp-content/uploads/Google-MapReduce中文版_1.0.pdf
人們口中的大數據一般指
源於谷歌三篇關於海量數據存儲和計算的三篇論文發展而來的
Hadoop和其技術生態圈
Apache™Hadoop®項目開發了用於可靠,可擴展的分佈式計算的開源軟件。
Hadoop 模仿了Google大數據技術
Hadoop的 兩個核心概念
- HDFS :分佈式文件系統(Hadoop Distributed File System)
- MapReduce:並行計算處理框架,實現任務分解和調度
生態圈就像動物園
ZooKeeper
Apache ZooKeeper致力於開發和維護開源服務器,實現高度可靠的分佈式協調。
Flume
Flume是一種分佈式用於有效地收集,聚合和移動大量日誌數據的技術。它具有基於流數據流的簡單靈活的架構。
HBase
Apache HBase™是Hadoop數據庫,是一個分佈式,可擴展的大數據存儲。
Hive
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的SQL查詢功能,可以將SQL語句轉換爲MapReduce任務進行運行。
Hue
Hue是用於數據倉庫的開放源代碼的SQL工作臺
Impala
Impala是Cloudera公司主導開發的新型查詢系統,相對hive來說, Impala不需要把中間結果寫入磁盤,省掉了大量的I/O開銷,從而查詢更快
Kudu
作爲開源Apache Hadoop生態系統的新成員,Apache Kudu完善了Hadoop的存儲層,以實現對快速數據的快速分析.
Oozie
Oozie是一個用於管理Apache Hadoop作業的工作流程調度程序系統。
Spark
Sqoop
Apache Sqoop(TM)是一種工具,用於在Apache Hadoop和結構化數據存儲(如關係數據庫)之間高效傳輸批量數據。
YARN
YARN的基本思想是將資源管理和作業調度/監視的功能分解爲單獨的守護進程。
Pig
Apache Pig是一個分析大型數據集的平臺,它包含用於表達數據分析程序的高級語言,以及用於評估這些程序的基礎結構。