原创 小白推演HIVE數據庫的優化思路 原

小白之前用過一段Oracle等關係型數據庫,並總結了關係型數據庫優化的訣竅-看解釋計劃。Oracle是一個成熟產品,解釋計劃包含多個類別,有真實的,有虛擬的,通過對觀察不同種類的解釋計劃數據,能夠掌握一段sql從輸入到輸出的絕大部分的數據,

原创 hive極致優化(一)-打開解釋計劃 原 薦

/數據倉庫/hive-極致優化-解釋計劃1 1. 讀懂解釋計劃 hivesql的運行同關係型數據庫一樣遵循一個邏輯。解釋計劃就是用來描述這個邏輯。讀懂解釋計劃, 就能夠知道,程序運行的前世今生。能夠很直觀的瞭解程序運行瓶頸點。 簡而言之,

原创 摒棄低效的sql,利用hive的統計信息,快速收集表信息 原 薦

前言 在衡量數據完整性,有個指標就是要統計表的行數。在監控集羣的資源使用情況,需要統計表的佔用空間。 在觀察集羣是否有很多小文件,需要統計佔用空間/文件個數,可以做一個大致判斷。 下面提供了倆個版本,第一個版本構思簡單粗暴,效率低。第二個

原创 SQL優化-第二章-從解釋計劃層面讓SQL飛 原 薦

前言 在第一章,我們談到加強數據庫的設計層面認知可以讓SQL的跑得更快,這章我們就談論下如何從語言層面來提供優化SQL。如果說有一把鑰匙能打開SQL優化的大門,那麼解釋計劃就是這樣的一把鑰匙。什麼是解釋計劃--數據根據統計信息生成的代碼執行

原创 Hive-hiveSQL調優 原 薦

前言 很早以前也是寫過hivesql優化分享,但視角都偏狹隘。這篇希望能夠從一個比較高層的視角來看待hive優化。勿贅言,影響HiveSQL性能有倆方面: SQL轉化成MapReduce的算法以及算法執行路徑圖是否合理,這部分代碼社區大牛

原创 hive-極致優化(二)-解釋計劃類別 原

/數據倉庫/hive-極致優化-解釋計劃類別 1. 解釋計劃計劃種類 在這裏我們會討論下面幾種類型的解釋計劃 select-from-where select-function(col)-from和select-from-where-fu

原创 數據平臺-第二章-數據地圖 原

數據地圖 數據地圖在整個數據平臺中,是一個manager的角色,也是一個顧問的角色。是一種圖形化的數據管理工具,它提供了多層次的圖形化展現,並具備各種粒度控制能力,滿足業務使用,數據管理,開發運維不同應用場景的圖形查詢和輔助分析需求。實現對

原创 PA數據平臺-第一章-現有系統的剖析 原

1. 現有系統 下圖是現有收集各個移動端數據以及同步專業公司RDBMS數據庫的系統結構圖。 1.1) 系統結構說明 從上圖可以看到,整個數據流的流轉會經歷下面幾個環節: 接入前解析 集團下各個子公司的td數據,以文件形式的上傳到sour

原创 數據平臺-第一章-數據質量提升 原

概述 元數據爲數據數據平臺提供了一致的描述信息,描述系統的結構特徵和靜態特徵,並作爲控制性信息,控制並配置特定工具和進程運行,實現數據平臺管理和維護的自動化處理。數據質量管理是構建在元數據對數據平臺全流域,全生命週期,全景式的全方位描述上,

原创 SQL優化-第三章-監控與定位性能問題引發點 原 薦

前言 前面的章節我們聊到從體系結構,邏輯結構,表設計,索引,以及SQL語句都是可以優化的切入點,但是凡事如果能做到在事情發現前做到預防,是否發生能夠快速定位,所以這裏就列舉了日常工作頻繁用到的監控類別和能夠直接使用的工具,在實際的工作中能夠

原创 cloudera spark2.2 讀寫hbase 原

cloudera spark2.2 讀寫hbase 例子 host = 'bigdata-03,bigdata-05,bigdata-04' conf = { "hbase.zookeeper.quorum": host,

原创 SQL優化-第一章-從設計層面讓SQL飛 原 薦

前言 SQL優化,老生常談,確也容易陷入一種思維誤區。現談及SQL化,衆口必言,查詢走索引,統計行數用count(列),不用count(*).必須用exists 代替in,表關聯小表在前(驅動表),大表在後,錶鏈接鏈接條件等等讓人眼暈難記的

原创 時間同步-ntp服務器的搭建(docker版本) 原

introduce 用於構建cdm所需要的ntp服務器鏡像,實現宿主機和ntpserver同步,ntpserver於ntpclient的同步 項目地址 項目github image build docker image build -t d

原创 RDBMS變化數據設計,採集和接入大數據平臺 原 薦

變化的數據處理和捕獲 在數據爆發式增長的時代,記錄數據變化和演變,探究內在規律並運用到生產實踐中,驅動業務的增長成爲這個時代主旋律。本文就如何記錄數據變化,處理數據變化談談自己的理解 變化數據的存儲 1.1. 覆蓋重寫 所要更改的屬性,始終

原创 spark dataframe 全局排名優化 原 薦

spark提供給我們的全局排序,默認情況下只有spark-sql提供的窗口函數,但如果窗口是整個表eg:row_number() over(order by a) 會存在嚴重的數據傾斜,下面我們演示了倆種方式,例2是例1的改進方式 例1:S