原创 Shell編程、linux命令工作常用,提高工作效率系列,快快收藏

shell編程,linux命令內容清單 shell腳本配置引用 查看端口 去掉字符串空格的操作(三種方法) ls文件查看 文件轉碼 全局查找文件,遍歷機器所有目錄 創建軟鏈接 split文件切分命令

原创 最實用的hive優化參數配置,session級別配置靈活性高

前言 在Hive優化方面,要做到性能最優,那就是得定製優化,針對不同的sql腳本設置不同的參數,配置不同的map和reduce數。保證局部性能最優,結果纔會是效率最高。 那麼在定製優化方面使用session級別的配置就是對症下藥。

原创 搭建Hive數據倉庫爬過的坑-數據倉庫設計要點

開篇 基於大數據的時代背景,分佈式計算框架已經是無可替代的計算工具。那麼數據倉庫的運行環境就不只是拘泥於關係型數據庫了,在數據量比較大的前提下,分佈式計算將會比關係型數據庫更勝一籌。 那麼數據倉庫環境從關係型數據到分佈式計算框架的

原创 《Building the Data Warehouse》(數據倉庫 第四版)拆書稿-關係模型(3NF範式建模)重要知識點

拆書稿:《Building the Data Warehouse》(數據倉庫 第四版) 最近覆盤數據倉庫的相關技術,在網上搜了好多關於數倉的帖子,看完之後就是感覺有肉無血,串不起來。因爲好多都是介紹數倉的兩種建模基本理論,但是付

原创 《大數據之路-阿里巴巴大數據實踐》拆書稿以及數倉架構的思考

《大數據之路-阿里巴巴大數據實踐》拆書稿以及讀後感 總體分爲三個部分 第一部分:數據技術 數據採集,數據同步,離線和實時計算,數據服務以及數據應用 第二部分:數據模型 維度模型設計 第三部分:數據管理 元數據管理,計算管理以及生

原创 Hive底層文件存儲類型parquet

Hive作爲數據倉庫常用工具之一,在數據量級越來越大的時候,存儲問題會暴露出來。那麼在之前大部分爲了省事方便都會以TextFile*作爲存儲類型,此類型比較佔存儲,並且查詢效率並不是很高。爲了節省集羣的存儲空間,研究了各種存儲類型

原创 數據倉庫工程師面試經驗(2019)

所有面試的前奏: 先簡要的介紹一下自己! 這句話基本上是所有面試官問的第一個問題,這個問題我的應對策略是: 1. 簡要介紹何時畢業於哪所學校(姓名,籍貫可選擇) 2. 從近往遠介紹開始介紹工作經驗 3. 大廠大項目靠前介紹,其他情

原创 Mysql安裝教程和sql練習題(windows環境,內附Mysql安裝包和客戶端安裝包)

Mysql數據庫環境搭建過程 一、 安裝包準備 安裝包資源下載鏈接:https://pan.baidu.com/s/16gxnmlJmVsSbsRGTa0jTFw 提取碼:fixb 二、客戶端工具程序準備 資源包下載同上 三、安裝

原创 數據倉庫結構設計與實施-拆書稿(維度建模理論)

拆書稿-數據倉庫結構設計與實施 本篇文章內容目錄 第一部分:數據倉庫總體結構(原書第二章) 1 金字塔結構 2 元數據與模型 3 映像 4 數據倉庫三要素 5 多維總計方陣 6 方陣和數據集市的區別 第二部分:數據倉庫設計與應用

原创 Shell編程日常工作積累,收藏下來,工作效率會大幅提升

Shell命令整理目錄 時間操作 文件編碼轉換 grep命令排除條件 創建文件 打印日誌,和打印日誌方法 替換固定字符後輸出文件 校驗文件是否已存在 整個文件新增第一列 shell腳本讀取文件,

原创 Kimball維度建模基本理論

本文相關基本理論摘錄自《數據倉庫工具箱–維度建模的完全指南-第二版》和《數據倉庫聲明週期工具箱》 維度建模介紹 維度建模是一種將數據結構化的邏輯設計方法,將客觀世界劃分爲度量和上下文。機構的每一個業務過程都可以使用維度模型來描述,

原创 自定義UDAF函數開發詳解

自定義UDAF函數開發詳解 UDAF 函數分爲如下兩部分: 一、負責檢查數據類型(Resolver) 二、負責數據執行處理(Evaluator) 第一部分(Resolver) Resolver 部分繼承 AbstractGener