Hadoop學習筆記（1）－Hadoop生態系統

0.前言

先介紹下現在的整體大數據架構的內容。見下圖。

右邊的黑框部分是hadoop的核心架構。包括HDFS，MapReduce，yarn，hive，hbase。
中間紅框部分是saprk的生態圈，有RDD，sparkCore，sparkSQL，sparkGraphX，sparkML，sparkR，sparkStreaming。Spark可以完全代替Hadoop中的MapReduce部分。
現在的hadoop＋spark是最重要的大數據框架。可以用來解決J2EE，.NET，LAMP開發的系統平臺的數據處理；支持各類終端設備的數據中心；HQL（理解爲面向對象的SQL語句）的查詢。

1.Hadoop生態系統解析與實際應用

1.1 Hadoop是一個適合分佈式海量數據存儲和處理的大數據存儲和計算引擎；
1.2 Hadoop核心包含三大部分：
a) HDFS:高效、可靠、低成本的分佈式數據存儲首選方案;
b) MapReduce: Hadoop的分佈式計算模型，基於該模型產生了很多Hadoop適合於具體場景的計算框架，例如Hive、Mahout等；但是由於其先天DNA的缺陷，導致在實現迭代類型的算法的時候顯得力不從心，所以正在逐漸和徹底的被新一代最火爆的大數據計算框架Spark所取代；
c) Yarn：大數據集羣資源管理器，用於管理同一個集羣中不同大數據計算框架資源的使用；
1.3 建議實際生產環境下使用Hadoop 2.6.x版本，http://hadoop.apache.org/releases.html
1.4 Hadoop的生態系統

HDFS:海量分佈式數據的存儲；
MapReduce：海量數據的計算框架；
Sqoop/HIHO：DB和HDFS是相互導入導出數據；
Hive/Pig：在MapReduce的基礎上構建的更加方便人們使用Hadoop的子框架；
Ganglia：集羣的監控管理工具；
ZooKeeper：集羣的同步工具，一般用來做HA;
HBase：OLTP(On-Line Transaction Processing聯機事務處理系統)存儲和高速實時查詢系統；
1， Hive：Hadoop的數據倉庫，包含兩部分數據倉庫本身以及基於數據倉庫的查詢計算引擎；把數據映射成爲數據庫的表並提供完整的SQL查詢功能，實際計算的時候是在背後把SQL語句轉換成爲MapReduce任務進行運行，所以計算Hive的計算引擎只是一個單機版本的客戶端而已；
2， Pig，使用SQL-Like的語言Pig Latin來進行Hadoop更加簡易的操作和編程接口；
3， HBase：是Hadoop的數據庫，其本質是一個NoSQL類型的實時高速檢索引擎；
4， ZooKeeper：一般用做HA（高可用）;
5， Sqoop：用於在Hadoop和關係型數據庫之間的數據相互轉移的工具

具體每塊內容後面一一學習。博主也是學習中。

本博客學習自王家林的視頻。

XianMing的博客

發佈了54 篇原創文章 · 獲贊 53 · 訪問量 27萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop學習筆記（1）－Hadoop生態系統

0.前言

1.Hadoop生態系統解析與實際應用

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

Hadoop學習筆記（5）－搭建Hadoop分佈式

Hadoop學習筆記（4）－Eclipse下搭建Hadoop2.6.4開發環境並寫wordcount

Hadoop學習筆記（7）－簡述MapReduce計算框架原理

java 操作mysql的創建數據庫及數據的增刪改查

Hadoop學習筆記（1）－Hadoop生態系統

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結