對於Hadoop產生的原因,我們從以下三個方面談起:
一、 傳統大規模系統的問題
(1)傳統大規模計算
1.傳統計算受到處理器限制:相對較小的數據量;有很多複雜的處理。
2. 早期的方案:更大的計算機,更快的處理器,更多的內存,但即使這樣也不能滿足
(2)分佈式系統
1. 更好的方案:使用更多的機器來處理單個作業
2. 分佈式系統遇到的問題:編程的複雜性(用來管理和處理數據的程序很複雜);有限的帶寬
3.數據瓶頸:傳統系統中,數據存儲在中央存儲;數據在運行時拷貝到處理器;適合限量的數據
然而,現代系統有很多數據,我們需要尋求新的方法來處理這些數據:Hadoop就應運而生,引入了一個徹底的新方法就是分佈式計算,當數據存儲時分佈數據,而且在數據所在的位置運行計算。
二、 Hadoop自身優勢
(1) Hadoop的源起:
1.思想起源:Google
2.Hadoop之父:Doug Cutting
3.Lucene->Nutch->Hadoop
4. 實現雲計算的事實標準開源軟件
5.包含數十個具有強大生命力的子項目
6.已經能在上萬節點上運行,處理數據量和排序時間不斷打破世界紀錄
(2) Hadoop核心設計
1.當數據加載的時候分片成塊
2.Map任務通常作用於單個塊
3.Master程序管理任務
(3) Hadoop核心概念
1.應用通過高級語言代碼來寫
2.節點之間儘可能少的通信
3.數據提前分佈式存儲
4.把計算放到數據所在節點運行
5.數據通過多副本存儲來提供可靠性和高可用性
6.Hadoop是可擴展並且容錯的
三.Hadoop適用背景
(1)大數據的處理模式:
主要的處理模式可以分爲流處理(stream processing)和批處理(batch processing):批處理是先存儲後處理(store-process);流處理則是直接處理(straight-through process)
(2)你可以用Hadoop做什麼?
(3)數據從哪裏來?
1.科學
醫療影像,傳感器數據,基因測序,天氣數據,衛星
2.工業
金融,製藥,製造業,保險,網遊,能源,零售數據
3.資產
銷售數據,客戶行爲,產品數據庫,賬戶數據等
4.系統數據
日誌文件,健康和狀態,活動信息流,網絡消息,web分析,入侵檢測和垃圾郵件過濾
(4)常見的Hadoop分析類型
ETL;文本挖掘;索引構建;圖創建和分析;模式識別;協同過濾; 預測模型;情感分析;風險評估
(5)使用Hadoop分析的好處
實現以前不可能或不現實的分析;更低的成本;更少的時間;更多的靈活性;近線性的擴展性
以上就是根據自己的學習以及實際經驗給大家分享的Hadoop產生的原因,對於更多想要學習和了解大數據的同學來說,這是一個很好的開端;平常大家可以多關注一些大數據的資訊,多看一些大數據相關的書籍,我平常喜歡關注如大數據cn這些微信公衆號,裏面對於大數據的資訊介紹還是不錯的,大家也可以看看。總之,希望我們每一個人都踏踏實實從基礎做起,不斷鞏固提高,一定會取得進步的。