大數據入門基礎:Hadoop簡介

48af492bf36a4a5da2f76eb33b9a1000_th.png

  1.1.什麼是hadoop

  1.hadoop是apache旗下的一套開源軟件平臺,可以通過http://apache.org/--->project-

   ->hadoop打開

9c373a8eaae548c9875f1ddd656f3212_th.png

  2.Hadoop是開源軟件,可靠的、分佈式、可伸縮的。

  3.Hadoop提供的功能:利用服務器集羣,根據用戶的自定義業務邏輯,對海量數據進行分佈式處理

  4.廣義上來說,Hadoop通常是指一個更廣泛的概念----hadoop生態圈

  1.2數據分析故事

12043386618247e09e9ccad7b9f62f27_th.png

f35bbbe9cefe41569b57ad117ce0a33d_th.png

12043386618247e09e9ccad7b9f62f27_th.png

79e8010e65bc47b4b48e6d0ac7cdba44_th.png

568e3c0f89324005b89b6ab01b7c316e_th.png

d565b8a9681846109a956b08f82104a8_th.png

2f30603b7f97422c953f42bdfc6f0e69_th.png

12043386618247e09e9ccad7b9f62f27_th.png

  1.3數據有多大呢

568e3c0f89324005b89b6ab01b7c316e_th.png

e9ce57cc485a47fc8dbbc7dd5d82ccb6_th.png

  數據量進制:

  1G =1024M

  1T = 1024G

  1P = 1024T

  1E = 1024P

  1Z = 1024E

  1Y = 1024Z

  1N = 1024Y

82397ae0251d4bb5867e83cb4de84d10_th.png

  Hadoop 廉價機器

  去IOE

   IBM//ibm小型機.

  Oracle//oracle數據庫服務器 RAC

  EMC//EMC共享存儲設備

  1.4分佈式

  由分佈在不同主機上的進程協同在一起,才能構成整個應用。

1.分佈式軟件系統(Distributed Software Systems)

  2 該軟件系統會劃分成多個子系統或模塊,各自運行在不同的機器上,

  子系統或模塊之間通過網絡通信進行協作,實現最終的整體功能

2.分佈式應用系統模擬開發

  需求:可以實現由主節點將運算任務發往從節點,並將各從節點上的任務啓動;

  程序清單:

  AppMaster

  AppSlave/APPSlaveThread

  Task

  程序運行邏輯流程:

0f91143e44a64e238d8a205bbe889554_th.png

1.5 HADOOP在大數據、雲計算中的位置和關係

  1. 雲計算是分佈式計算、並行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。藉助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等業務模式,把強大的計算能力提供給終端用戶。

  2. 現階段,雲計算的兩大底層支撐技術爲“虛擬化”和“大數據技術

1.6 HADOOP產生背景

  1. HADOOP最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨着抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

  2. 2003年、2004年谷歌發表的兩篇論文爲該問題提供了可行的解決方案

  ——分佈式文件系統(GFS),可用於處理海量網頁的存儲

  ——分佈式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。

  3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成爲獨立項目HADOOP,到2008年1月,HADOOP成爲Apache頂級項目,迎來了它的快速發展期。

1.7 HADOOP現狀

e53d786147b24481939644b94b2fdc10_th.png

0b9691a34d00495c9908bb1baa3639c2_th.png


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章