原创 Spark-Apache Spark3.0.Dynamic Partition Pruning

靜態分區裁剪[Static Partition Pruning] 用過Spark的同學知道,SparkSQL在查詢的時候支持分區裁剪,比如: select * from Sales where day_of_week = ‘Mon

原创 Spark-SparkSQL與DataFrame的本質

SparkSQL與DataFrame 一、SparkSQL之所以是除了SparkCore以外最大的和最受關注的組件,原因如下: 處理一切存儲介質和各種格式的數據(同時可以方便的擴展SparkSQL的功能來支持更多類型的數據,例如

原创 ReadingNotes

《網易一千零一夜》

原创 Hive(二)函數

Hive常用函數 date_add(string startDate,int days) 日期增加函數,返回值類型string【返回開始日期增加days天后的日期】 date_sub(string startDate,int d

原创 Python - MySQL數據庫相關對象及優化操作

Python數據庫的Connection、Cursor兩大對象 Python數據庫圖解流程 參數優化 url 在url後加上參數rewriteBatchedStatements=true表示MySQL服務開啓批次寫入,此參數

原创 Python - Normal Function

abs() 絕對值 eval() 評估函數 join() str.join(iter) 在iter變量除最後元素外每個元素後增加一個str lower()/upper() 返回字符串得副本,全部字符爲小寫/大寫 例:“ABCdef

原创 Python - 正則表達式超詳細理解

Topic:python中關於正則表達式

原创 Python - 庫

Python計算生態 = 標準庫 + 第三方庫 標準庫:隨解釋器直接安裝到操作系統中的功能模塊 第三方庫:需要經過安裝才能使用的功能模塊 庫Library、包Package、模塊Module,統稱模塊 random庫 ran

原创 DataWarehouse -【馬蜂窩】數據倉庫設計與實踐

Part.1 馬蜂窩數據倉庫與數據中臺 最近幾年,數據中臺概念的熱度一直不減。2018 年起,馬蜂窩也開始了自己的數據中臺探索之路。 數據中臺到底是什麼?要不要建?和數據倉庫有什麼本質的區別?相信很多企業都在關注這些問題。 我認爲

原创 DataWarehouse(總)數據倉庫博客總覽

Item:DataWarehouse Author:Zichen.G StartTime:2019-08-23 DataWarehouse — 【數據倉庫分層】 DataWarehouse — 【馬蜂窩數據庫設計與實踐】 數據

原创 Scala—scala中不建議使用return

在scala中使用return的話,編譯的時候會提示 the latest statement is method is automatically returned, use of th return keyword is re

原创 DataWarehouse - 數據倉庫的分層

爲什麼對數據倉庫分層 用空間換時間,通過大量的預處理來提升系統的用戶體驗(效率),避免數據倉庫會存在大量的冗餘數據。 如果不進行數倉分層,源業務系統的業務規則發生變化,將會影響整個系統的清洗工作,工作量巨大。 通過數據分層管理可

原创 Database(一)數據庫範式

數據庫範式爲數據庫的設計、開發提供了一個可參考的典範,在許多教學材料中也是作爲關鍵的課程內容。那麼範式的提出是爲了解決什麼問題? 第一範式,要求將列儘可能最小的分割,希望消除某個列存儲多個值的冗餘的行爲 比如用戶表中的地址信息,拆

原创 StockLearning

Stock learning 點贊 收藏 分享 文章舉報 做一隻精緻IT小白 發佈了19 篇原創文章 · 獲贊 31 · 訪問量 1萬+ 私信

原创 Financial Management

《你不理財,財不理你》 美國170位百萬富翁理財: 現在就開始投資。現實生活中六成以上的人連成爲百萬富翁的第一步就沒做到。 制定目標。不論任何目標,要有計劃、堅定不移地去完成計劃。 把錢用於買股票或者基金上。 不要眼高手低,選