Hadoop初探學習（1）——hadoop的簡史

原創

校长专栏

2020-02-23 00:00

初探hadoop,去了解hadoop的簡史對於我們學習hadoop有很大的幫助，下面我們來看看什麼是hadoop？

一. What Is Apache Hadoop?

（1）The Apache™ Hadoop® project developsopen-source software for reliable, scalable, distributed computing.

（2）hadoop要去解決的問題：①海量數據的存儲（HDFS）②海量數據的分析（MapperReduce）③資源管理調度（YARN）。

（3）始於apache項目Nutch

2003年Google發表了關於GFS的論文

2004年Nutch的開發者開發了NDFS

2004年Google發表了關於MapReduce的論文

2005年MapReduce被引入了NDFS

2006年改名爲Hadoop，NDFS的創始人加入Yahoo，Yahoo成立了一個專門的小組發展Hadoop

（4）Hadoop大事記

2004年-- 最初的版本(現在稱爲HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。

2005年12月-- Nutch移植到新的框架，Hadoop在20個節點上穩定運行。

2006年01月-- Doug Cutting加入雅虎。

2006年02月-- Apache Hadoop項目正式啓動以支持MapReduce和HDFS的獨立發展。

2006年02月-- 雅虎的網格計算團隊採用Hadoop。

2006年04月-- 標準排序(10 GB每個節點)在188個節點上運行47.9個小時。

2006年05月-- 雅虎建立了一個300個節點的Hadoop研究集羣。

2006年05月-- 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。

2006年11月-- 研究集羣增加到600個節點。

2006年12月-- 標準排序在20個節點上運行1.8個小時，100個節點3.3小時，500個節點5.2小時，900個節點7.8個小時。

2007年01月-- 研究集羣到達900個節點。

2007年04月-- 研究集羣達到兩個1000個節點的集羣。

2008年04月-- 贏得世界最快1TB數據排序在900個節點上用時209秒。

2008年10月-- 研究集羣每天裝載10 TB的數據。

2009年03月-- 17個集羣總共24 000臺機器。

2009年04月-- 贏得每分鐘排序，59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。

二. 作者介紹

hadoop的作者是Doug Cutting，受Google三篇論文的啓發(GFS、MapReduce、BigTable)，Doug

Cutting開源的實現hadoop這個超級工程。

三. hadoop具體能幹什麼？

（1）hadoop擅長日誌分析，facebook就用Hive來進行日誌分析，2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析；淘寶搜索中的自定義篩選也使用的Hive；利用Pig還可以做高級的數據處理，包括Twitter、LinkedIn上用於發現您可能認識的人，可以實現類似Amazon.com的協同過濾的推薦

效果。淘寶的商品推薦也是！在Yahoo！的40%的Hadoop作業是用pig運行的，包括垃圾郵件的識別和過濾，還有

用戶特徵建模。（2012年8月25新更新，天貓

的推薦系統是hive，少量嘗試mahout！）

四. 哪些公司使用hadoop？

（1）Hadoop被公認是一套行業大數據標準開源軟件，在分佈式環境下提供了海量數據的處理能力。幾乎所有主流廠商都圍繞Hadoop開發工具、開源軟件、商業化工具和技術服務。今年大型IT公司，如EMC、Microsoft、Intel、Teradata、Cisco都明顯增加了Hadoop方面的投入。

（2）hadoop在淘寶：

a. 從09年開始，用於對海量數據的離線處理，例如對日誌的分析，交易記錄的分析等

b. 規模從當初的3~4百臺節點，增加到現在的一個集羣有3000個節點，淘寶現在已經有2~3個這樣的集羣

c .在支付寶的集羣規模也有700臺節點，使用Hbase對用戶的消費記錄可以實現毫秒級查詢

五. 架構總覽

六. hadoop EcoSystem Map

（1）說明圖

（2）說明圖闡述

1. 這一切是如何開始的—Web上龐大的數據!

　　2.使用Nutch抓取Web數據

　　3.要保存Web上龐大的數據——HDFS應運而生

　　4.如何使用這些龐大的數據?

　　5.採用Java或任何的流/管道語言構建MapReduce框架用於編碼並進行分析

　　6.如何獲取Web日誌，點擊流，Apache日誌，服務器日誌等非結構化數據——fuse,webdav,chukwa, flume, Scribe

　　7.Hiho和sqoop將數據加載到HDFS中，關係型數據庫也能夠加入到Hadoop隊伍中

　　8.MapReduce編程需要的高級接口——Pig,Hive, Jaql

　　9.具有先進的UI報表功能的BI工具- Intellicus

　　10.Map-Reduce處理過程使用的工作流工具及高級語言

　　11.監控、管理hadoop，運行jobs/hive，查看HDFS的高級視圖—Hue,karmasphere, eclipse plugin, cacti, ganglia

　　12.支持框架—Avro(進行序列化), Zookeeper (用於協同)

　　13.更多高級接口——Mahout,Elastic map Reduce

　　14.同樣可以進行OLTP——Hbase

七. 集羣存儲和計算的主要瓶頸

八. Hadoop和虛擬化的差異點

九. hadoop核心

lHDFS: Hadoop Distributed File System 分佈式文件系統

lYARN: Yet Another Resource Negotiator 資源管理調度系統

十. hadoop的特點

（1）擴容能力（Scalable）：能可靠地（reliably）存儲和處理千兆字節（PB）數據。

（2）成本低（Economical）：可以通過普通機器組成的服務器羣來分發以及處理數據。這些服務器羣總計可達數

千個節點。

（3）高效率（Efficient）：通過分發數據，hadoop可以在數據所在的節點上並行地（parallel）處理它們，這使

得處理非常的快速。

（4）可靠性（Reliable）：hadoop能自動地維護數據的多份副本，並且在任務失敗後能自動地重新部署（redeploy）計算任務。

十一. hadoop1.0跟hadoop2.0對比

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop初探學習（1）——hadoop的簡史

一. What Is Apache Hadoop?

二. 作者介紹

三. hadoop具體能幹什麼？

四. 哪些公司使用hadoop？

五. 架構總覽

六. hadoop EcoSystem Map

七. 集羣存儲和計算的主要瓶頸

八. Hadoop和虛擬化的差異點

九. hadoop核心

十. hadoop的特點

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

Mac卸載 Node npm，升級 Node

嵌入式汽車電子學習路線

uni.showModel內容換行

深入理解Java虛擬機系列——JVM的GC理論詳解

maven setting詳解

深入瞭解Java虛擬機系列——JVM的啓動流程

深入理解Java虛擬機系列（1）——什麼叫做JVM與JVM規範

MapperReduce初探系列（1）——面向編程之分佈式分析框架（模型）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結