原创 布隆過濾器

目的: 過濾器使我們可以保留屬於某個預定義值集合的記錄。如果輸出的結果有小的誤判也不會是問題(只可能誤判,絕不會漏判,失誤率取決於hash算法),因爲我們會在後續的操作中做進一步的檢查。這裏的預先確定的值列表稱爲熱門值(hot value

原创 hadoop MapReduce 三種連接

爲了實現內連接和外連接,MapReduce中有三種連接策略,如下所示。這三種連接策略有的在map階段,有的在reduce階段。它們都針對MapReduce的排序-合併(sort-merge)的架構進行了優化。 重分區連接(Repart

原创 新版flume+kafka+storm安裝部署

去年寫了篇flume+kafka+storm的文章,最近重新回顧發現改動挺大的,就重新整理這篇文章。希望能幫上大家。架構圖、組件介紹就不重複了,這篇文章重點將如何安裝部署。需要源碼的請留言。 版本介紹: zookeeper3.4

原创 使用Hive處理WordCount

一.在Hive中創建存放要處理的數據的表 $hive> create table textlines(line string) 導入數據: $hive> load data inpath ’tmp/input’ overwrite in