原创 【原創】hive/mysq 字典表多字段替換事實表多字段

數據詳情: 事實表:其中多個字段是字典code。 字典表:兩列,字典code、字典value。 需求: 現在將事實表的字典code轉換成字典value。 案例數據準備: CREATE TABLE test_value (   id in

原创 【阿里巴巴中臺—模型設計】模型分層和原則

一、模型分層 維度建模將數據分爲三層:操作數據層(ODS),公共緯度模型層(CDM),應用數據層(ADS),其中,CDM又分爲明細數據層(DWD)和彙總數據層(DWS)。 操作數據層(ODS):把操作系統數據幾乎無處理的存放到數據倉庫系統

原创 【阿里巴巴中臺—理論篇】爲什麼要建模?

要想做一個比較好的全域模型架構,第一點,你要明白爲什麼要進行建模? 隨着進入大數據時代,數據來源豐富,數據量也飛速增長。大數據時代之前的儲存架構明顯開始脫力,數據消費也面臨完整性、準確性和及時性的挑戰。類比,人類在農業革命之前,依靠大腦去

原创 【開窗】取最近直播標題和直播時長

問題描述: 一張表:test_over(uid, title, stime, etime, date) 字段comment:主播ID,直播間標題,開始直播時間戳,結束直播時間戳,日期分區 問題:求每個主播當天最近一次直播記錄和全天總的直播

原创 【Kimball維度建模】+【阿里巴巴中臺—OneData實施】

一、Kimball維度建模 1.前生今世 維度建模出自Ralph Kimall的《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》(《數據倉庫工具箱》)

原创 如何取每個分組中的前幾項輸出

題目要求,一張表,兩個字段,分別是城市,關鍵字,查找出每個城市關鍵詞的前五。分析:    1.首先要求的每個維度是城市+關鍵字 -> 根據城市和關鍵字分組求出數量    2.要找到前五輸出,想到ROW_NUMBER() 開窗函數實現如下:

原创 燈泡問題,題目見下文

問題:給1-100號燈泡,所有的燈泡都是滅的,按一次會變亮或者變暗。讓1-100個人來按,規則如下:    第一個人:從1按到100    第二個人:隔一個按一次(2 4 6 8 ...)    第三個人:隔兩個按一次(3 6 9 11

原创 程序員的浪漫

99669999996669999996699666699666999966699666699 99699999999699999999699666699669966996699666699 99669999999999999996699

原创 淺析Hive的group by和count(distinct)

    首先,Hive的group by和count(distinct)都是去除重複的數據,某種程度上來說,兩者產生的結果是一樣的。    實例代碼:select a,count(distinct b) from t group by a

原创 淺析Hive的四種排序方式

一、order by     order by 是要對輸出的結果進行全局排序,這就意味着只有一個reducer才能實現(多個reducer無法保證全局有序)但是當數據量過大的時候,效率就很低。如果在嚴格模式下(hive.mapred.mo

原创 求解玻璃球的最大摔碎高度

今天,一哥們帶回來一道題,很有意思。題目大概是這樣: 給你兩個玻璃球,在最少實驗次數,求出它的最大摔碎的高度,給出的摔碎的高度是1-100層樓之間,不考慮其他因素的影響。 首先,來分析一下這個問題:兩次機會,最少次數,1-100層高度。

原创 Hadoop集羣如何動態的增刪節點

環境:    集羣環境是CentOS6;Hadoop版本爲2.7.3一、增加節點    1.配置主節點和新增節點的免密登錄(ssh信任)    2.將新的節點的ip(如果在主節點的/etc/hosts中配置了名字也可以用名字替代)加入到H