數據倉庫工程師面試經驗（2019）

原創

2020-02-20 12:54

所有面試的前奏：

先簡要的介紹一下自己！

這句話基本上是所有面試官問的第一個問題，這個問題我的應對策略是：

1. 簡要介紹何時畢業於哪所學校（姓名，籍貫可選擇）
2. 從近往遠介紹開始介紹工作經驗
3. 大廠大項目靠前介紹，其他情況靠後
4. 小項目簡要介紹一兩句話概括
5. 重要介紹和自己面試崗位匹配的項目，並且需要調理分明

後續就是按照你上面介紹的項目具體詢問各種細節問題，下面羅列一下自己遇到的相關面試問題：

一、某團面試問題

數據分層情況和原因，解決的什麼問題
數據抽取和同步的方法
join的表中篩選和where中篩選有什麼區別（謂詞下推）
範式建模和維度建模的區別，應用場景的區別，優缺點
sql 分組三類函數的區別
拉鍊表的實現
手寫計算器java實現
手寫排序算法（快速排序）
手寫sql，基本上是實現排序分組去top5的類型，隨意修改要求說出統計思路
linux過濾命令 grep -A / -B 去固定行的上下幾行
hive整個調優過程做了哪些
hive數倉整體架構，實現過程，有哪些問題，是怎樣解決的
元數據是怎樣管理的？元數據中都包括了那些數據
mapreduce 執行原理
hive的窗口函數

二、某汽車行業大廠

Hive 和MySQL的區別
元數據是怎麼應用的
Sql優化都做了哪些？
分區和分桶具體怎麼實現的？
解決問題的處理思路和具體問題舉例說明解決過程
調度框架的運行機制和原理
數據倉庫整體架構
Hive 支持的底層數據文件類型有哪些
元數據，技術元數據和業務元數據都包含了哪些？
元數據怎樣管理
怎樣保證數據質量
監控都做了哪些
怎樣實現歷史拉鍊
IBM範式建模的七大主題是什麼？其中怎樣理解當事人主題
數據倉庫的容量，日增數據量
關係型數據庫到hive 效率提升的拐點是什麼？就是多大數據量後關係型數據庫計算效率不如hive

三、其他（上面重複的不在贅述）

數據表的分組和分塊？怎樣完成數據的分組，並且在分組後按照一定的維度分塊
爲什麼要用Hbase 而不用關係型數據庫？
簡要介紹一下mapreduce執行時的數據流轉

四、必問項（表現不錯的話）

從上家公司離職的原因
你的職業規劃
你對面試官還有什麼想問的嗎？

雖然都說大環境不好，但是工作機會還是有，需要多做準備，還是可以找到心儀的工作的！

發佈了10 篇原創文章 · 獲贊 12 · 訪問量 1897

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最實用的hive優化參數配置，session級別配置靈活性高

前言在Hive優化方面，要做到性能最優，那就是得定製優化，針對不同的sql腳本設置不同的參數，配置不同的map和reduce數。保證局部性能最優，結果纔會是效率最高。那麼在定製優化方面使用session級別的配置就是對症下藥。

2020-07-06 15:27:41

搭建Hive數據倉庫爬過的坑-數據倉庫設計要點

開篇基於大數據的時代背景，分佈式計算框架已經是無可替代的計算工具。那麼數據倉庫的運行環境就不只是拘泥於關係型數據庫了，在數據量比較大的前提下，分佈式計算將會比關係型數據庫更勝一籌。那麼數據倉庫環境從關係型數據到分佈式計算框架的

2020-07-06 15:27:40

Hive底層文件存儲類型parquet

Hive作爲數據倉庫常用工具之一，在數據量級越來越大的時候，存儲問題會暴露出來。那麼在之前大部分爲了省事方便都會以TextFile*作爲存儲類型，此類型比較佔存儲，並且查詢效率並不是很高。爲了節省集羣的存儲空間，研究了各種存儲類型

2020-07-06 15:27:29

python中實現字符串使用非"+"號拼接的方式實現

2020-05-30 13:32:24

自定義UDAF函數開發詳解

2020-02-20 12:54:23

最實用的hive優化參數配置，session級別配置靈活性高

前言在Hive優化方面，要做到性能最優，那就是得定製優化，針對不同的sql腳本設置不同的參數，配置不同的map和reduce數。保證局部性能最優，結果纔會是效率最高。那麼在定製優化方面使用session級別的配置就是對症下藥。

2020-07-06 15:27:41

搭建Hive數據倉庫爬過的坑-數據倉庫設計要點

開篇基於大數據的時代背景，分佈式計算框架已經是無可替代的計算工具。那麼數據倉庫的運行環境就不只是拘泥於關係型數據庫了，在數據量比較大的前提下，分佈式計算將會比關係型數據庫更勝一籌。那麼數據倉庫環境從關係型數據到分佈式計算框架的

2020-07-06 15:27:40

Hive底層文件存儲類型parquet

Hive作爲數據倉庫常用工具之一，在數據量級越來越大的時候，存儲問題會暴露出來。那麼在之前大部分爲了省事方便都會以TextFile*作爲存儲類型，此類型比較佔存儲，並且查詢效率並不是很高。爲了節省集羣的存儲空間，研究了各種存儲類型

2020-07-06 15:27:29

Hive 數據倉庫技術

2020-04-19 07:39:17

自定義UDAF函數開發詳解

2020-02-20 12:54:23

Hive面試問題1

富的只剩下代码

2019-05-01 00:49:18

Hive的三種Join方式

富的只剩下代码

2019-04-28 23:54:03

開啓Hive的本地模式

富的只剩下代码

2019-04-28 23:54:03

Hive MapJoin 優化

2018-08-29 05:52:39

24小時熱門文章

最新文章

最新評論文章