大數據中Hadoop能做什麼

原創

2020-06-26 00:08

摘要：本文從Hadoop的初衷、大數據時代背景、Hadoop的使用者來探討“Hadoop能做什麼”這個問題。

關鍵詞：Hadoop 大數據

Hadoop是Doug Cutting 基於Google公司的GFS和MapReduce思想不斷完善項目Nutch中脫胎而出的。

Hadoop是適合於大數據的分佈式存儲和處理平臺，是一種開源的框架。

大數據時代已經到來，給我們的生活、工作、思維方式都帶來變革。如何尋求大數據後面的價值，既是機遇又是挑戰。不管是金融數據、還是電商數據、又還是社交數據、遊戲數據.......這些數據的規模、結構、增長的速度都給傳統數據存儲和處理技術帶來巨大考驗。幸運的是，Hadoop的誕生和所構建成的生態系統給大數據的存儲、處理和分析帶來了曙光。

不管是國外的著名公司Google、Yahoo!、微軟、亞馬遜、 EBay、FaceBook、Twitter、LinkedIn等和初創公司Cloudera、Hortonworks等，又還是國內的著名公司中國移動、阿里巴巴、華爲、騰訊、百度、網易、京東商城等，都在使用Hadoop及相關技術解決大規模化數據問題，以滿足公司需求和創造商業價值。

例如：Yahoo! 的垃圾郵件識別和過濾、用戶特徵建模；Amazon.com（亞馬遜）的協同過濾推薦系統；Facebook的Web日誌分析；Twitter、LinkedIn的人脈尋找系統；淘寶商品推薦系統、淘寶搜索中的自定義篩選功能......這些應用都使用到Hadoop及其相關技術。

“Hadoop能做什麼？” ，概括如下：

1、搜索引擎（Doug Cutting 設計Hadoop的初衷，爲了針對大規模的網頁快速建立索引）。

2、大數據存儲，利用Hadoop的分佈式存儲能力，例如數據備份、數據倉庫等。

3、大數據處理，利用Hadoop的分佈式處理能力，例如數據挖掘、數據分析等。

4、科學研究，Hadoop是一種分佈式的開源框架，對於分佈式計算有很大程度地參考價值。

Hadoop的核心是一個分佈式計算和存儲平臺，從其核心的HDFS和Map/Reduce來說，它可以做下面的事情：
1.日誌分析：這是當前用的最多的一個用途，百度就是用Hadoop實現的其日誌分析功能。
2.海量數據的查詢：從海量數據中找出你需要的那個。
3.數據分析：提供強大的計算功能支持大量的計算分析。

其實，Hadoop能做什麼，一是存儲，二是計算。

關鍵是看你想讓Hadoop做什麼，Hadoop適合什麼樣的計算，什麼樣的存儲。

HDFS是一個分佈式的文件系統，適合的是非結構化數據的存儲。
Map/Reduce是一個並行編程模型，適合高併發、高讀寫的計算。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據中Hadoop能做什麼

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

單例模式中爲什麼用枚舉更好？

大數據中Hadoop能做什麼

解鎖Redis分佈式鎖的正確實現姿勢

JVM運行結構圖

Mysql千萬級大數據SQL優化

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結