原创 MapReduce Design Patterns(chapter 2 (part 2))(三)

Median and standard deviation 中值和標準差的計算比前面的例子複雜一點。因爲這種運算是非關聯的,它們不是那麼容易的能從combiner中獲益。中值是將數據集一分爲兩等份的數值類型,一份比中值大,一部分比中值小。

原创 MapReduce Design Patterns(chapter 2 (part 3))(四)

Inverted Index Summarizations Pattern Description 反向索引模式在MapReduce分析中經常作爲一個例子。我們將會討論我們要創建的term跟標識符之間映射的一般情況。   Intent 根

原创 MapReduce Design Patterns(chapter 1)(一)

翻譯的是這本書: Chapter 1.Design Patterns and MapReduce MapReduce 是一種運行於成百上千臺機器上的處理數據的框架,目前被google,Hadoop等多家公司或社區廣泛使用。這種計算框架

原创 MapReduce Design Patterns(chapter 3 (part 1))(五)

Chapter 3. Filtering Patterns 本章的模式有一個共同點:不會改變原來的記錄。這種模式是找到一個數據的子集,或者更小,例如取前十條,或者很大,例如結果去重。這種過濾器模式跟前面章節的不同是,從更小的粒度認識數據,

原创 MapReduce Design Patterns(chapter 5 (part 2))(十)

Replicated Join Pattern Description 複製join是一種特殊的join,用於一個大數據和許多小數據集map端執行的情況。 Intent 這種模式能夠消除reduce階段的shuffle。 Motivati

原创 hadoop權威指南第三版 發佈說明

(此文摘自http://hadoopbook.com) hadoop權威指南第三版發行說明:         第三版會在2012年5月發行。你現在可以預定一份電子版,或購買“Early Release”版,買了這版送正式版。(這話對國

原创 MapReduce Design Patterns(chapter 3 (part 2))(六)

Top Ten Pattern Description Top ten模式跟前面的有很大的不同,跟輸入數據大小無關,最終得到的記錄數量是確定的。而在通用filtering中,輸出的規模取決於輸入數據。 Intent 根據數據集的排名,獲取

原创 MapReduce Design Patterns(chapter 2 (part 1))(二)

CHAPTER 2 .Summarization Patterns 隨着每天都有更多的數據加載進系統,數據量變得很龐大。這一章專注於對你的數據頂層的,概括性意見的設計模式,從而使你能擴展思路,但可能對局部數據是不適用的。概括性的分析都是關

原创 hbase shell命令擴展

也許你還不清楚我在說什麼,看一下下面的截圖你就明白了:   好吧,如果您感興趣,可以繼續看下去了。 hbase是以字節數組的形式存儲數據的,當你直接用API或通過hbase 自帶的shell端去查詢數據時,實際顯示的是二進制數據的b

原创 hbase 表的重命名

hbase沒有提供重命名錶的API,無意中發現0.90.4版本有類似的jruby腳本,無聊之下搞了個java重命名錶的類: package com.cuirong.hbase.rtc; import java.io.DataOu

原创 redis value爲對象的排序、分頁的一種實現

  -------基於HBase存儲引擎並實現了排序、分頁的Redis緩存策略   思路: 1、  當前系統緩存json,根據key存取value,key 和value都是String類型,直接返回前端。 2、  考慮支持分頁,想到了

原创 memcached總結和與spring的集成

           Memcached是一個高性能的分佈式內存對象緩存系統,用於動態Web應用以減輕硬盤數據庫的負載,基於一個存儲鍵/值對的hashmap,守護進程用c寫的,客戶端可用各種語言實現。          特點有以下幾個:

原创 MapReduce Design Patterns(chapter 4 (part 2))(八)

Binning Pattern Description 分箱模式,跟前面的類似,分類記錄且不考慮記錄的順序。 Intent 歸檔數據集中的每條記錄到一個或多個類別。 Motivation 分箱和分區很相似,可以用來解決相同的問題。不同點是

原创 redis jedis使用總結

 redis是一個key-value存儲系統,目前提供幾種數據類型:string,list,set及zset(sorted set),hash。週期性的把更新的數據寫入磁盤或者把修改操作寫入追加的記錄文件,並且在此基礎上實現了maste

原创 redis與spring的完全集成

  下載spring-data-redis,gav如下: <dependency> <groupId>org.springframework.data</groupId> <artifact