Hadoop初探學習(1)——hadoop的簡史

初探hadoop,去了解hadoop的簡史對於我們學習hadoop有很大的幫助,下面我們來看看什麼是hadoop?

一. What Is Apache Hadoop?

(1)The Apache™ Hadoop® project developsopen-source software for reliable, scalable, distributed computing.

(2)hadoop要去解決的問題:①海量數據的存儲(HDFS)②海量數據的分析(MapperReduce)③資源管理調度(YARN)。

(3)始於apache項目Nutch

2003年Google發表了關於GFS的論文

2004年Nutch的開發者開發了NDFS

2004年Google發表了關於MapReduce的論文

2005年MapReduce被引入了NDFS

2006年改名爲Hadoop,NDFS的創始人加入Yahoo,Yahoo成立了一個專門的小組發展Hadoop

(4)Hadoop大事記

2004年-- 最初的版本(現在稱爲HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。

2005年12月-- Nutch移植到新的框架,Hadoop在20個節點上穩定運行。

2006年01月-- Doug Cutting加入雅虎。

2006年02月-- Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。

2006年02月-- 雅虎的網格計算團隊採用Hadoop。

2006年04月-- 標準排序(10 GB每個節點)在188個節點上運行47.9個小時。

2006年05月-- 雅虎建立了一個300個節點的Hadoop研究集羣。

2006年05月-- 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。

2006年11月-- 研究集羣增加到600個節點。

2006年12月-- 標準排序在20個節點上運行1.8個小時,100個節點3.3小時,500個節點5.2小時,900個節點7.8個小時。

2007年01月-- 研究集羣到達900個節點。

2007年04月-- 研究集羣達到兩個1000個節點的集羣。

2008年04月-- 贏得世界最快1TB數據排序在900個節點上用時209秒。

2008年10月-- 研究集羣每天裝載10 TB的數據。

2009年03月-- 17個集羣總共24 000臺機器。

2009年04月-- 贏得每分鐘排序,59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。


二. 作者介紹

hadoop的作者是Doug Cutting,受Google三篇論文的啓發(GFS、MapReduce、BigTable),Doug 

Cutting開源的實現hadoop這個超級工程。

三. hadoop具體能幹什麼?

(1)hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;淘寶搜索中的自定篩選也使用的Hive;利用Pig還可以做高級的數據處理,包括TwitterLinkedIn上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦

果。淘寶的商品推薦也是!在Yahoo!的40%Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有

用戶特徵建模。(2012825新更新,天

的推薦系統是hive,少量嘗試mahout!)

四. 哪些公司使用hadoop?

1)Hadoop被公認是一套行業大數據標準開源軟件,在分佈式環境下提供了海量數據的處理能力。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年大型IT公司,如EMCMicrosoftIntelTeradataCisco都明顯增加了Hadoop方面的投入。
(2)hadoop在淘寶:
a. 從09年開始,用於對海量數據的離線處理,例如對日誌的分析,交易記錄的分析等
b. 規模從當初的3~4百臺節點,增加到現在的一個集羣有3000個節點,淘寶現在已經有2~3個這樣的集羣
c .在支付寶的集羣規模也有700臺節點,使用Hbase對用戶的消費記錄可以實現毫秒級查詢

五. 架構總覽


六. hadoop EcoSystem Map

(1)說明圖

2)說明圖闡述

       1. 這一切是如何開始的—Web上龐大的數據!

  2.使用Nutch抓取Web數據

  3.要保存Web上龐大的數據——HDFS應運而生

  4.如何使用這些龐大的數據?

  5.採用Java或任何的流/管道語言構建MapReduce框架用於編碼並進行分析

  6.如何獲取Web日誌,點擊流,Apache日誌,服務器日誌等非結構化數據——fuse,webdav,chukwa, flume, Scribe

  7.Hiho和sqoop將數據加載到HDFS中,關係型數據庫也能夠加入到Hadoop隊伍中

  8.MapReduce編程需要的高級接口——Pig,Hive, Jaql

  9.具有先進的UI報表功能的BI工具- Intellicus

  10.Map-Reduce處理過程使用的工作流工具及高級語言

  11.監控、管理hadoop,運行jobs/hive,查看HDFS的高級視圖—Hue,karmasphere, eclipse plugin, cacti, ganglia

  12.支持框架—Avro(進行序列化), Zookeeper (用於協同)

  13.更多高級接口——Mahout,Elastic map Reduce

  14.同樣可以進行OLTP——Hbase

七. 集羣存儲和計算的主要瓶頸



八. Hadoop和虛擬化的差異點


九. hadoop核心

lHDFS: Hadoop Distributed File System 分佈式文件系統
lYARN: Yet Another Resource Negotiator 資源管理調度系統

十. hadoop的特點

(1)擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。
(2)成本低(Economical):可以通過普通機器組成的服務器羣來分發以及處理數據。這些服務器羣總計可達數
千個節點。
(3)高效率(Efficient):通過分發數據,hadoop可以在數據所在的節點上並行地(parallel)處理它們,這使
得處理非常的快速。
(4)可靠性(Reliable):hadoop能自動地維護數據的多份副本,並且在任務失敗後能自動地重新部署(redeploy)計算任務。
十一. hadoop1.0跟hadoop2.0對比

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章