hadoop簡介

1 hadoop是什麼?
What Is Apache Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.

2 解決問題:
海量數據的存儲(HDFS)
海量數據的分析(MapReduce)
資源管理調度(YARN)

3 作者:Doug Cutting
受Google三篇論文的啓發(GFS、MapReduce、BigTable)

4 hadoop具體能幹什麼?
hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特徵建模。(2012年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!)

5 哪些公司使用hadoop
Hadoop被公認是一套行業大數據標準開源軟件,在分佈式環境下提供了海量數據的處理能力。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入。

6 hadoop生態系統
(https://img-blog.csdn.net/20150515201630914)

7 版本
Apache
官方版本(2.7)
Cloudera
使用下載最多的版本,穩定,有商業支持,在Apache的基礎上打上了一些patch。推薦使用。
HDP(Hortonworks Data Platform)
Hortonworks公司發行版本。

8 hadoop核心
HDFS: Hadoop Distributed File System 分佈式文件系統
YARN: Yet Another Resource Negotiator 資源管理調度系統

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章