原创 數據立方體與OLAP

數據立方體 關於數據立方體(Data Cube),其實只是多維模型的一個形象的說法。立方體其本身只有三維,但多維模型不僅限於三維模型,可以組合更多的維度,但一方面是出於更方便地解釋和描述,同時也是給思維成像和想象的空間;另一方面是爲了與傳

原创 使用HSqlDB的SQL/JRT功能

使用HSqlDB的過程中,因爲業務需求要執行動態SQL時,才突然發現HSqlDB不具有類似於SQL Server等數據庫的Exec的功能。於是一番探

原创 數據倉庫的基本架構

數據倉庫的目的是構建面向分析的集成化數據環境,爲企業提供決策支持(Decision Support)。其實數據倉庫本身並不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源於外部,並且開放給外部應用,這也是爲什麼叫“倉庫”,而

原创 Hbase中compaction的觸發條件

下列三個條件可能會觸發compaction請求: 1. memstore flush之後觸發; 2. 客戶端通過shell或者API觸發;3. 後臺線程CompactionChecker定期觸發,週期爲:hbase.server.thre

原创 貝葉斯定理相關的一些理解

近日在看阮一峯翻譯的《黑客與畫家》,書中的第8章介紹了以貝葉斯定理和推斷爲基礎實現的一個垃圾郵件過濾器。文章對其實現過程介紹比較粗略,爲此阮一峯後續

原创 構建星型數據倉庫五步法

1.確定主題 即確定數據分析或前端展現的主題。例如:我們希望分析某年某月某一地區的啤酒銷售情況,這就是一個主題。主題要體現出某一方面的各分析角度(維度)和統計數值型數據(量度)之間的關係,確定主題時要綜合考慮。我們可以形象的將一個主題想象

原创 執行redis-trib.rb時遇到的問題

redis-trib.rb是Redis Cluster的一個常用工具。下面記錄了執行此命令時遇到的一系列錯誤。 redis-trib.rb create --replicas 1 127.0.0.1:7379 127.0.0.1:73

原创 Hadoop新一代MapReduce框架Yarn,理解時需要注意的幾點問題

這篇文章介紹了Yarn框架,我認爲寫的不錯。但是對於初學者,我覺得應該特別注意以下幾點,因爲這些是容易混淆的問題。 1. YARN和MR2不是一回事。YARN只是一個資源管理的框架,並不是一個計算框架,MR2只是一個計算框架,並不是一個資

原创 EOF的定義以及如何用好它

原文見:http://faq.cprogramming.com/cgi-bin/smartfaq.cgi?answer=1048865140&id=1043284351 原文已經寫得很清楚了,不想多說了...... 點贊

原创 Redis集羣實現方式

Redis採用數據分區和主從模式實現了分佈式集羣管理方式,數據分區實現了橫向擴展,主從模式實現了故障恢復。 Redis集羣示意圖 數據分區 Redis集羣將數據分區後存儲在多個節點上,即不同的分區存儲在不同的節點上,每個節點可以存儲

原创 數據倉庫的多維數據模型

爲了滿足用戶從多角度多層次進行數據查詢和分析的需要,多維數據模型建立了的基於事實和維的數據庫模型,其基本的應用是爲了實現OLAP(Online An

原创 有關大數據,看這一篇就夠了!

        轉自:http://database.ctocio.com.cn/47/13205547.shtml         似乎一夜之間,大數據(BigData)變成一個IT行業中最時髦的詞彙。   首先,大數據不是什麼完完全全

原创 HBase中region split的大致流程

經過和社區討論,並參照網上的一些帖子,自己還看了一些源碼,終於將region split的大致流程搞清楚了。 1. RegionServer開始split,首先會在ZK中創建一個名稱爲“/hbase/region-in-transitio

原创 Phoenix中不得不吐槽的兩大特徵

Phoenix是什麼?看看官網就知道了,我就不細說了。關於它的優點,官網也是列了一大堆,我也不復述了。 下面只談談截止Phoenix4.2.1,我認爲初學者應該注意的兩個特徵: 1. 完全喪失了HBase的多版本特徵 HBases至少也是

原创 Redis集羣常用操作方式

目前對集羣的操作可以通過社區提供的ruby腳本(redis-trib.rb,包含在src目錄下)和內置命令進行(Cluster命令組)進行,包括Jedis在內的一些客戶端工具也提供了部分集羣操作。下面以前者爲例介紹常用的集羣操作。 安裝集