原创 MAC環境下每次打開sublime都是新建窗口解決辦法

每次新把文件夾設置爲project之後,然後點擊左上角的關閉按鈕,下一次打開之後又是一個新的空界面,之前添加的project信息也是空的,原因是什麼呢? 因爲我們每次關閉都是手動的點擊左上角關閉按鈕,如果想要保存原有的project信息以

原创 pandas學習之Series

搞機器學習、數據可視化這方面的工作、學習,pandas應該是必須要學習的內容。 pandas有兩大數據結構:series以及dataframe。 這一篇文章寫一些關於series的相關知識。 官方學習資料:https://pandas.p

原创 什麼是可加,半可加,不可加事實?

衆所周知,數據倉庫的事實表中是有數字度量的,一般會根據這些數據度量以及提前規定好的一致性維度來進行統計等工作。 那麼事實表中的數組度量分三種:1.可加事實,2.半可加事實,3.不可加事實   下面讓我們來看看它們的定義與區別 1.可加事實

原创 OLTP和OLAP的區別(個人理解)

在剛接觸數據建模的時候,我對這兩個概念也不是熟悉,只知道數據倉庫中有olap類型的表,適合數據分析人員進行數據的上卷下鑽(根據一定的維度屬性進行數據統計)而一般的事務數據庫的表類型是oltp,主要用於事務處理,後面慢慢了解之後才知道ola

原创 星型模型和olap多維數據庫

首先明確一個概念,星型模型只是種模型,不是一種實際存在的數據實體,它是將事實表和維度表通過外鍵組合起來的一種模型,一種建模方式。 而olap多維數據庫是真實存在的一種數據形式,源自星型模型,通過星型模型的構建理念得到的事實表和維度表關聯之

原创 pandas學習之DataFrame

上一節學習了Series相關的概念,這部分的知識是學習pandas另一數據結構:DataFrame的基礎。 DataFrame是二維的、有標記的數據結構,它可以具有可能不同類型的列。 可以將其看做類似SQL表格,或者包含多個Series對

原创 數倉建模知識討論和分享

這裏主要是想和大家討論討論數據建模的知識,大家把想了解的一些問題以及對一些問題的見解可以在評論區域發出來,然後我刊登在正文裏面,做一個知識集中庫。 例如:1.數倉建模中的全量表和增量表的區分是什麼? 答:https://blog.csdn

原创 pyecharts渲染圖片

這篇文章講的是mac下的chromedriver和selenium安裝。  各位同學在上手學習pyecharts時會有將網頁上的圖片渲染到本地的需求,如以下官方代碼: from pyecharts.charts import Bar f

原创 數倉建模-增量表及全量表

判斷一張表是增量表還是全量表,我認爲有以下步驟: 1.這張表是基礎數據表還是統計數據表(基礎數據表一般來自業務系統的明細記錄數據,統計數據表則爲基於明細記錄數據通過各種統計口徑的統計表)。 2.判斷這張表的同步方式(基礎數據表)或者統計主

原创 畢業論文調格式之頁碼,頁眉頁腳,目錄頁碼右對齊

前言 相信大家在畢業季的時候爲了調文章的格式有苦惱過吧。下面給大家帶來一些我最近搜到的、或者總結到的一些關於頁眉頁腳,頁碼和目錄的一些鏈接和心得。 調整頁眉頁腳 https://jingyan.baidu.com/article/

原创 hive表更改元數據之後未選擇級聯,在查詢時spark引擎和hive/tez引擎查詢結果不一致問題

最近在工作中遇到一個問題:他人修改了數據表之後(加了兩個字段,但是沒有選擇級聯更改),用spark引擎查是可以查到數據,用tez/hive來查新增的兩個字段的值是null值。 最後發現是分區的元數據和表的元數據不一致導致的,分區的元數據少

原创 工作經驗分享|你在工作中應該注意什麼?

上一篇文章我分享了我在工作之餘的一些豐富生活的方法 工作之餘,如何豐富生活? 那這篇文章我來講一講我工作之中總結到的一些經驗,希望能給剛步入工作的你一些幫助,有些見解不對的地方還請批評指正。   首先我理解對於一個校招生來說,有三個階段:

原创 工作之餘,如何豐富生活?

我呢,參加工作的時間也不短了。 讀書的時候經常和已經工作的同學聊天,他們經常說工作比較累,平常晚上回去就看看手機睡覺了,週末一般也是待在家裏宅着。我有問過他們爲什麼週末不出去逛逛的原因,基本上我聽到的回答都是說平常工作就很累了,早起晚歸的

原创 python中list賦值問題

有些時候我們在for循環中想把某一個list或者dict賦值給一些元素,比如下面這種場景: 我們想得到的是lst2的值是 [0] [0, 1] [0, 1, 2] [0, 1, 2, 3] [0, 1, 2, 3, 4] 但是結果是

原创 OLTP和OLAP的區別

在剛接觸數據建模的時候,我對這兩個概念也不是熟悉,只知道數據倉庫中有olap類型的表,適合數據分析人員進行數據的上卷下鑽(根據一定的維度屬性進行數據統計)而一般的事務數據庫的表類型是oltp,主要用於事務處理,後面慢慢了解之後才知道ola