原创 數據建模理論小結:Inmon和Kimball

看了這麼多數倉模型的對比文章,我想把我總結的一些東西記錄下來。   說到數倉建模,那麼肯定離不開兩種方式:範式建模(Inmon)和維度建模(kim ball)。這兩種方式各有適用的地方,需要根據具體應用場景進行選擇。當然還有一種獨立數據集

原创 hive數據傾斜及其解決方案

現在常見的數據傾斜分兩種情況,一種是大量的空值導致的,另一種是一對多的情況造成的,下面分別說一下這兩種的解決方案。   1.空值 這種情況下比較好解決,有兩種解決方式,使用哪一種具體取決於你需不需要主鍵爲空值的該行紀錄的其它信息,因爲有些

原创 緩慢變化維學習

一開始看到這個詞的時候給我的第一印象就是拉鍊表,緩慢變化表擁有從表創建開始到現在的所有數據,包括狀態變化的數據。 那麼什麼是緩慢變化表呢? 首先要來了解一下什麼是緩慢變化維,就是在業務進行過程中,會發生變化,但又不會頻繁變化的維度。  

原创 如何設計一張事務事實表?

根據書籍:大數據之路,設計一張事務事實表的步驟分以下幾步:   1.選擇業務過程   在設計事實表的時候,首先得知道這張事實表要記錄什麼事實,也就是說,對應的業務過程是什麼,是關於下單這個業務過程,還是支付還是交互之類的。 2.確定粒度

原创 什麼是退化維度?

退化維度的維度表可以被剔除,從而簡化維度數據倉庫的模式。因爲簡單的模式比複雜的更容易理解,也有更好的查詢性能。 當一個維度沒有數據倉庫需要的任何數據時就可以退化此維度。需要把退化維度的相關數據遷移到事實表中,然後刪除退化的維度。 維度屬性

原创 什麼是全量表,增量表,快照表,拉鍊表?

這一篇文章我們的目的是搞懂這四種表的概念,閒話不多說,直接看文字。   全量表 全量表沒有分區,表中的數據是前一天的所有數據,比如說今天是24號,那麼全量表裏面擁有的數據是23號的所有數據,每次往全量表裏面寫數據都會覆蓋之前的數據,所以全

原创 事實表的分類:事務事實表,週期快照事實表,累計快照事實表

維度建模數倉領域中的事實表大致分以下三種:事務事實表,週期快照事實表,累計事實表。 事務事實表與週期快照事實表、累積快照事實表雖然使用相同的一致性維度,但是它們在內容構成以及業務描述上還是有很大的區別。   1.事務事實表 事務事實表記錄

原创 原子指標和衍生/派生指標

按照個人的理解,不加任何修飾詞的指標就是原子指標,也叫度量,一般存在於olap表中,例如訂單量,用戶量的等等。 而在原子指標上進行加減乘除或者修飾詞的限定等等都是派生指標, 衍生/派生指標=原子指標+時間週期+修飾詞 例如:近7天訂單量,

原创 Spark的map和flatmap的區別

最近學習spark,然後遇到了這麼一個題,有如下數據: http://bigdata.edu360.cn/laozhang http://bigdata.edu360.cn/laoduan http://javaee.edu360.c

原创 word調格式之頁碼,頁眉頁腳,目錄頁碼右對齊

前言 相信大家在畢業季的時候爲了調文章的格式有苦惱過吧。下面給大家帶來一些我最近搜到的、或者總結到的一些關於頁眉頁腳,頁碼和目錄的一些鏈接和心得。 調整頁眉頁腳 https://jingyan.baidu.com/article/d2

原创 Latex中插入用origin繪畫的兩條座標軸,雙x軸或者雙y軸擁有不同刻度的圖片

先上效果圖,如果所示,上面x軸的刻度從20-30,下面x軸的刻度從0-6,這樣就達到了上下兩條x軸顯示不同刻度的目的。 下面我們說一下怎麼做到的,其實比較簡單,通過添加一層圖層,就可以做到了,也就是說上方的x周和下方的x軸不在一個圖層,

原创 標量、向量、矩陣求導(兩種佈局方式)

問題引入 首先以一個網上很多博文引用的例子來開篇,例子見下圖 問題初試 在瞭解向量和向量求導的時候,我看過以下一些公式: 首先Ax是個m維的列向量,它對x求偏導是個列向量對列向量求偏導的格式,所以可以套用上述公式(10),那麼得

原创 idea用maven3.6.0下載源碼失敗(ubuntu環境下)

今天在代碼裏面想看看jama包下部分代碼,但是點擊Download Sources提示在idea環境下不行,提示Cannot download sources Sources not found for:XXX.jar 我用的mav

原创 AbstractQueuedSynchronizer(aqs)中acquireShared和releaseShared的理解

上一篇我們看了aqs中獨佔模式下acquire和release的代碼。下面我們來看看共享模式下的acquireShared和releaseShared的代碼。 首先先看acquireShared的代碼 public final void

原创 AbstractQueuedSynchronizer(aqs)中acquire和release的理解

Aqs有兩種模式,一種獨佔模式,一種共享模式,他們獲取資源的方法分別對應 acquire-release、acquireShared-releaseShared   這篇文章我們來看看獨佔模式下的獲取資源和釋放資源的代碼。   先來看ac