台部落停不下的脚步

目的：過濾器使我們可以保留屬於某個預定義值集合的記錄。如果輸出的結果有小的誤判也不會是問題（只可能誤判，絕不會漏判，失誤率取決於hash算法），因爲我們會在後續的操作中做進一步的檢查。這裏的預先確定的值列表稱爲熱門值(hot value

2018-08-24 01:00:39

爲了實現內連接和外連接，MapReduce中有三種連接策略，如下所示。這三種連接策略有的在map階段，有的在reduce階段。它們都針對MapReduce的排序-合併（sort-merge）的架構進行了優化。重分區連接（Repart

2018-08-24 01:00:39

去年寫了篇flume+kafka+storm的文章，最近重新回顧發現改動挺大的，就重新整理這篇文章。希望能幫上大家。架構圖、組件介紹就不重複了，這篇文章重點將如何安裝部署。需要源碼的請留言。版本介紹： zookeeper3.4

2018-08-24 01:00:37

一.在Hive中創建存放要處理的數據的表 $hive> create table textlines(line string) 導入數據： $hive> load data inpath ’tmp/input’ overwrite in

2018-08-24 01:00:37