Hadoop產生原因

對於Hadoop產生的原因,我們從以下三個方面談起:

一、  傳統大規模系統的問題

(1)傳統大規模計算

1.傳統計算受到處理器限制:相對較小的數據量有很多複雜的處理。

 2. 早期的方案:更大的計算機,更快的處理器,更多的內存,但即使這樣也不能滿足

(2)分佈式系統

  1. 更好的方案:使用更多的機器來處理單個作業

  2. 分佈式系統遇到的問題:編程的複雜性(用來管理和處理數據的程序很複雜);有限的帶寬

  3.數據瓶頸:傳統系統中,數據存儲在中央存儲;數據在運行時拷貝到處理器;適合限量的數據

 然而,現代系統有很多數據,我們需要尋求新的方法來處理這些數據:Hadoop就應運而生,引入了一個徹底的新方法就是分佈式計算,當數據存儲時分佈數據,而且在數據所在的位置運行計算。

二、  Hadoop自身優勢

(1)  Hadoop的源起:

1.思想起源:Google

2.Hadoop之父:Doug Cutting

3.Lucene->Nutch->Hadoop

4. 實現雲計算的事實標準開源軟件

5.包含數十個具有強大生命力的子項目

6.已經能在上萬節點上運行,處理數據量和排序時間不斷打破世界紀錄

(2)  Hadoop核心設計

1.當數據加載的時候分片成塊

2.Map任務通常作用於單個塊

3.Master程序管理任務


(3)  Hadoop核心概念

1.應用通過高級語言代碼來寫

2.節點之間儘可能少的通信

3.數據提前分佈式存儲

4.把計算放到數據所在節點運行

5.數據通過多副本存儲來提供可靠性和高可用性

6.Hadoop是可擴展並且容錯的

三.Hadoop適用背景

(1)大數據的處理模式:

 主要的處理模式可以分爲流處理(stream processing)和批處理(batch processing):批處理是先存儲後處理(store-process);流處理則是直接處理(straight-through process)

 (2)你可以用Hadoop做什麼?

      

 

(3)數據從哪裏來?

1.科學

醫療影像,傳感器數據,基因測序,天氣數據,衛星

2.工業

金融,製藥,製造業,保險,網遊,能源,零售數據

3.資產

銷售數據,客戶行爲,產品數據庫,賬戶數據等

4.系統數據

日誌文件,健康和狀態,活動信息流,網絡消息,web分析,入侵檢測和垃圾郵件過濾

(4)常見的Hadoop分析類型

ETL;文本挖掘;索引構建;圖創建和分析;模式識別;協同過濾;  預測模型;情感分析;風險評估

(5)使用Hadoop分析的好處

實現以前不可能或不現實的分析;更低的成本;更少的時間;更多的靈活性;近線性的擴展性

以上就是根據自己的學習以及實際經驗給大家分享的Hadoop產生的原因,對於更多想要學習和了解大數據的同學來說,這是一個很好的開端;平常大家可以多關注一些大數據的資訊,多看一些大數據相關的書籍,我平常喜歡關注如大數據cn這些微信公衆號,裏面對於大數據的資訊介紹還是不錯的,大家也可以看看。總之,希望我們每一個人都踏踏實實從基礎做起,不斷鞏固提高,一定會取得進步的。

發佈了26 篇原創文章 · 獲贊 9 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章