用通俗易懂的話說下hadoop是什麼,能做什麼

Hadoop是什麼？

(1)Hadoop是一個開源的框架，可編寫和運行分佈式應用處理大規模數據，是專爲離線和大規模數據分析而設計的，並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。Hadoop=HDFS（文件系統，數據存儲技術相關）+ Mapreduce（數據處理），Hadoop的數據來源可以是任何形式，在處理半結構化和非結構化數據上與關係型數據庫相比有更好的性能，具有更靈活的處理能力，不管任何數據形式最終會轉化爲key/value，key/value是基本數據單元。用函數式變成Mapreduce代替SQL，SQL是查詢語句，而Mapreduce則是使用腳本和代碼，而對於適用於關係型數據庫，習慣SQL的Hadoop有開源工具hive代替。

(2)Hadoop就是一個分佈式計算的解決方案。

Hadoop能做什麼？

       hadoop擅長日誌分析，facebook就用Hive來進行日誌分析，2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析；淘寶搜索中的自定義篩選也使用的Hive；利用Pig還可以做高級的數據處理，包括Twitter、LinkedIn 上用於發現您可能認識的人，可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是！在Yahoo！的40%的Hadoop作業是用pig運行的，包括垃圾郵件的識別和過濾，還有用戶特徵建模。（2012年8月25新更新，天貓的推薦系統是hive，少量嘗試mahout！）

下面舉例說明：

   設想一下這樣的應用場景. 我有一個100M 的數據庫備份的sql 文件.我現在想在不導入到數據庫的情況下直接用grep操作通過正則過濾出我想要的內容。例如：某個表中含有相同關鍵字的記錄那麼有幾種方式,一種是直接用linux的命令 grep 還有一種就是通過編程來讀取文件,然後對每行數據進行正則匹配得到結果好了現在是100M 的數據庫備份.上述兩種方法都可以輕鬆應對。
       那麼如果是1G , 1T 甚至 1PB 的數據呢 ,上面2種方法還能行得通嗎？答案是不能.畢竟單臺服務器的性能總有其上限.那麼對於這種超大數據文件怎麼得到我們想要的結果呢？
       有種方法就是分佈式計算, 分佈式計算的核心就在於利用分佈式算法把運行在單臺機器上的程序擴展到多臺機器上並行運行.從而使數據處理能力成倍增加.但是這種分佈式計算一般對編程人員要求很高,而且對服務器也有要求.導致了成本變得非常高。
       Haddop 就是爲了解決這個問題誕生的.Haddop 可以很輕易的把很多linux的廉價pc 組成分佈式結點,然後編程人員也不需要知道分佈式算法之類,只需要根據mapreduce的規則定義好接口方法,剩下的就交給Haddop. 它會自動把相關的計算分佈到各個結點上去,然後得出結果。
       例如上述的例子： Hadoop 要做的事首先把 1PB的數據文件導入到 HDFS中, 然後編程人員定義好 map和reduce, 也就是把文件的行定義爲key,每行的內容定義爲value , 然後進行正則匹配,匹配成功則把結果通過reduce聚合起來返回.Hadoop 就會把這個程序分佈到N 個結點去並行的操作。那麼原本可能需要計算好幾天,在有了足夠多的結點之後就可以把時間縮小到幾小時之內。

       這也就是所謂的大數據雲計算了。如果還是不懂的話再舉個簡單的例子：
       比如  1億個  1 相加得出計算結果, 我們很輕易知道結果是 1億.但是計算機不知道.那麼單臺計算機處理的方式做一個一億次的循環每次結果+1，那麼分佈式的處理方式則變成我用 1萬臺計算機,每個計算機只需要計算 1萬個 1 相加然後再有一臺計算機把 1萬臺計算機得到的結果再相加從而得到最後的結果。
       理論上講, 計算速度就提高了 1萬倍。當然上面可能是一個不恰當的例子.但所謂分佈式,大數據,雲計算大抵也就是這麼回事了。

用通俗易懂的話說下hadoop是什麼,能做什麼

Hadoop是什麼？

Hadoop能做什麼？

開源高性能結構化日誌模塊NanoLog

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

搜索學習——Lucene簡介

ACM北大的第1001題

轉載：用Hadoop，還是不用Hadoop？（使用Hadoop的場景）

用通俗易懂的話說下hadoop是什麼,能做什麼

Android列表數據動態改變

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結