Hadoop產生原因

對於Hadoop產生的原因，我們從以下三個方面談起：

一、傳統大規模系統的問題

（1）傳統大規模計算

1.傳統計算受到處理器限制：相對較小的數據量；有很多複雜的處理。

2. 早期的方案：更大的計算機，更快的處理器，更多的內存，但即使這樣也不能滿足

（2）分佈式系統

1. 更好的方案：使用更多的機器來處理單個作業

2. 分佈式系統遇到的問題：編程的複雜性（用來管理和處理數據的程序很複雜）；有限的帶寬

3.數據瓶頸：傳統系統中，數據存儲在中央存儲；數據在運行時拷貝到處理器；適合限量的數據

然而，現代系統有很多數據，我們需要尋求新的方法來處理這些數據：Hadoop就應運而生，引入了一個徹底的新方法就是分佈式計算，當數據存儲時分佈數據，而且在數據所在的位置運行計算。

二、 Hadoop自身優勢

（1） Hadoop的源起：

1.思想起源：Google

2.Hadoop之父：Doug Cutting

3.Lucene->Nutch->Hadoop

4. 實現雲計算的事實標準開源軟件

5.包含數十個具有強大生命力的子項目

6.已經能在上萬節點上運行，處理數據量和排序時間不斷打破世界紀錄

（2） Hadoop核心設計

1.當數據加載的時候分片成塊

2.Map任務通常作用於單個塊

3.Master程序管理任務

（3） Hadoop核心概念

1.應用通過高級語言代碼來寫

2.節點之間儘可能少的通信

3.數據提前分佈式存儲

4.把計算放到數據所在節點運行

5.數據通過多副本存儲來提供可靠性和高可用性

6.Hadoop是可擴展並且容錯的

三．Hadoop適用背景

（1）大數據的處理模式：

主要的處理模式可以分爲流處理（stream processing）和批處理（batch processing）：批處理是先存儲後處理（store-process）；流處理則是直接處理（straight-through process）

（2）你可以用Hadoop做什麼？

（3）數據從哪裏來？

1.科學

醫療影像，傳感器數據，基因測序，天氣數據，衛星

2.工業

金融，製藥，製造業，保險，網遊，能源，零售數據

3.資產

銷售數據，客戶行爲，產品數據庫，賬戶數據等

4.系統數據

日誌文件，健康和狀態，活動信息流，網絡消息，web分析，入侵檢測和垃圾郵件過濾

（4）常見的Hadoop分析類型

ETL;文本挖掘;索引構建;圖創建和分析；模式識別；協同過濾；預測模型；情感分析；風險評估

（5）使用Hadoop分析的好處

實現以前不可能或不現實的分析；更低的成本；更少的時間；更多的靈活性；近線性的擴展性

以上就是根據自己的學習以及實際經驗給大家分享的Hadoop產生的原因，對於更多想要學習和了解大數據的同學來說，這是一個很好的開端；平常大家可以多關注一些大數據的資訊，多看一些大數據相關的書籍，我平常喜歡關注如大數據cn這些微信公衆號，裏面對於大數據的資訊介紹還是不錯的，大家也可以看看。總之，希望我們每一個人都踏踏實實從基礎做起，不斷鞏固提高，一定會取得進步的。

大數據時代培訓中心

發佈了26 篇原創文章 · 獲贊 9 · 訪問量 8萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop產生原因

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

Hadoop產生原因

大數據學習的流程方案

初識Apache Hadoop

大數據學習一般學什麼

零基礎學習 Hadoop 如何下手

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結