Apache的Hadoop是一個開源的、可靠的、可擴展的系統架構,可利用分佈式架構來存儲海量數據、以及實現分佈式的計算。
Hadoop的兩個作用
- 存儲海量數據
- 計算海量數據
Hadoop應用場景
- 做網頁內容的分析處理
- 做用戶訪問行爲的分析處理,可以藉此建立用戶畫像
- 用戶推薦系統的數據分析和處理
- 在線廣告的點擊分析和流量分析
Hadoop的框架最核心的設計就是:HDFS和MapReduce。
HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算。 把HDFS理解爲一個分佈式的,有冗餘備份的,可以動態擴展的用來存儲大規模數據的大硬盤。
把MapReduce理解成爲一個計算引擎,按照MapReduce的規則編寫Map計算/Reduce計算的程序,可以完成計算任務。