筆記內容概括
- Hadoop概述
1.1 Hadoop名字的由來
1.2 Hadoop介紹
1.3 Hadoop能做什麼
- Hadoop概述
- Hadoop核心組件
2.1 HDFS(分佈式文件系統)
2.2 YARN(資源調度系統)
2.3 MapReduce(分佈式計算框架)
- Hadoop核心組件
- Hadoop優勢
- Hadoop發展史
- Hadoop 生態系統
5.1 狹義Hadoop VS 廣義Hadoop
5.2 Hadoop生態系統的特點
- Hadoop 生態系統
- Hadoop發行版本的選擇
1、Hadoop概述
1.1 Hadoop名字的由來
- Hadoop項目作者的孩子給一個棕黃色的大象樣子的填充玩具的命名 Hadoop的官網:http://hadoop.apache.org ,一定要學會看官網、養成看官網的習慣。
1.2 Hadoop介紹
Hadoop是Apache的一個頂級項目、是開源的、分佈式存儲+分佈式計算平臺;它由以下幾個模塊構成:
Hadoop Common: 這是支持hadoop其他模塊的通用工具模塊
Hadoop Distributed File System(HDFS):分佈式文件系統
Hadoop YARN: 統一資源管理和任務調度
Hadoop MapReduce:基於yarn系統的分佈式計算框架
下圖是官網的描述:
1.3 Hadoop能做什麼
搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務,如:智能商業、日誌分析、搜索引擎、數據挖掘等場景。
2、Hadoop核心組件
/2.1 HDFS(分佈式文件系統)
- 源自於Google的GFS論文,論文發表於2003年10月
- HDFS是GFS的克隆版
- HDFS特點:擴展性&容錯性&海量數據存儲
- 將文件切分成指定大小的數據塊並以多副本的存儲在多個機器上
- 數據切分、多副本、容錯等操作對用戶是透明的
2.2 YARN(資源調度系統)
- YARN: Yet Another Resource Negotiator
- 負責整個集羣資源的管理和調度
- YARN特點:擴展性&容錯性&多框架資源統一調度
2.3 MapReduce(分佈式計算框架)
- 源自於Google的MapReduce論文。論文發表於2004年12月
- MapReduce是Google MapReduce的克隆版
- MapReduce特點: 擴展性&容錯性&海量數據離線處理
3、Hadoop優勢
(1)、高可靠性
- 數據存儲:數據塊多副本
- 數據計算: 重新調度作業計算
(2)、高擴展性 - 存儲/計算資源不夠時,可以橫向的線性擴展機器
- 一個集羣中可以包含數以千計的節點
(3)、其他 - 存儲在廉價機器上,降低成本
- 成熟的生態圈
4、Hadoop的發展史
這篇博文有很詳細的介紹:十年了,Hadoop的前世今生博文鏈接
5、Hadoop生態系統
5.1 狹義Hadoop VS 廣義Hadoop
- 狹義Hadoop:
指的是一個適合大數據分佈式存儲(HDFS)、分佈式計算(MapReduce)和資源調度(YARN)平臺,即傳統意義上的Hadoop。 - 廣義Hadoop:指的是整個Hadoop生態系統,Hadoop生態系統是一個很龐大的概念,Hadoop是其中最重要最基礎的一部分;生態系統中的每一個子系統只能解決某一特定的問題域(甚至可能很窄),不搞統一型的一個全能系統,而是小而精的多個小系統。
5.2 Hadoop生態系統的特點
- 開源、社區活躍
- 囊括了大數據處理的方方面面
- 成熟的生態圈
6、 Hadoop常用發行版本和和選型
- Apcahe Hadoop:存在jar包衝突的問題,一般只用於學習;
- CDH(Cloudera Distributed Hadoop):商業版,不存在jar衝突問題,配置簡單、文檔詳細,具有容易升級的優點,生產環境中大多選擇該版本,缺點是代碼不開源,下載地址;
- HDP(Hortonworks Data Platform):存在安裝升級和刪除節點困難的問題,一般也應用於商業場景。