初探hadoop,去了解hadoop的簡史對於我們學習hadoop有很大的幫助,下面我們來看看什麼是hadoop?
一. What Is Apache Hadoop?
(1)The Apache™ Hadoop® project developsopen-source software for reliable, scalable, distributed computing.
(2)hadoop要去解決的問題:①海量數據的存儲(HDFS)②海量數據的分析(MapperReduce)③資源管理調度(YARN)。
(3)始於apache項目Nutch
2003年Google發表了關於GFS的論文
2004年Nutch的開發者開發了NDFS
2004年Google發表了關於MapReduce的論文
2005年MapReduce被引入了NDFS
2006年改名爲Hadoop,NDFS的創始人加入Yahoo,Yahoo成立了一個專門的小組發展Hadoop
(4)Hadoop大事記
2004年-- 最初的版本(現在稱爲HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。
2005年12月-- Nutch移植到新的框架,Hadoop在20個節點上穩定運行。
2006年01月-- Doug Cutting加入雅虎。
2006年02月-- Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。
2006年02月-- 雅虎的網格計算團隊採用Hadoop。
2006年04月-- 標準排序(10 GB每個節點)在188個節點上運行47.9個小時。
2006年05月-- 雅虎建立了一個300個節點的Hadoop研究集羣。
2006年05月-- 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。
2006年11月-- 研究集羣增加到600個節點。
2006年12月-- 標準排序在20個節點上運行1.8個小時,100個節點3.3小時,500個節點5.2小時,900個節點7.8個小時。
2007年01月-- 研究集羣到達900個節點。
2007年04月-- 研究集羣達到兩個1000個節點的集羣。
2008年04月-- 贏得世界最快1TB數據排序在900個節點上用時209秒。
2008年10月-- 研究集羣每天裝載10 TB的數據。
2009年03月-- 17個集羣總共24 000臺機器。
2009年04月-- 贏得每分鐘排序,59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。
二. 作者介紹
hadoop的作者是Doug Cutting,受Google三篇論文的啓發(GFS、MapReduce、BigTable),Doug
Cutting開源的實現hadoop這個超級工程。
三. hadoop具體能幹什麼?
(1)hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定義篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括Twitter、LinkedIn上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有
用戶特徵建模。(2012年8月25新更新,天貓
的推薦系統是hive,少量嘗試mahout!)
四. 哪些公司使用hadoop?
五. 架構總覽
六. hadoop EcoSystem Map
1. 這一切是如何開始的—Web上龐大的數據!
2.使用Nutch抓取Web數據
3.要保存Web上龐大的數據——HDFS應運而生
4.如何使用這些龐大的數據?
5.採用Java或任何的流/管道語言構建MapReduce框架用於編碼並進行分析
6.如何獲取Web日誌,點擊流,Apache日誌,服務器日誌等非結構化數據——fuse,webdav,chukwa, flume, Scribe
7.Hiho和sqoop將數據加載到HDFS中,關係型數據庫也能夠加入到Hadoop隊伍中
8.MapReduce編程需要的高級接口——Pig,Hive, Jaql
9.具有先進的UI報表功能的BI工具- Intellicus
10.Map-Reduce處理過程使用的工作流工具及高級語言
11.監控、管理hadoop,運行jobs/hive,查看HDFS的高級視圖—Hue,karmasphere, eclipse plugin, cacti, ganglia
12.支持框架—Avro(進行序列化), Zookeeper (用於協同)
13.更多高級接口——Mahout,Elastic map Reduce
14.同樣可以進行OLTP——Hbase