【大數據面試之對線面試官】MapReduce/HDFS/YARN面試題70連擊

熱身30題

1.描述一下HDFS的寫流程

2.描述一下HDFS的讀流程

3.詳細講解一下HDFS的體系結構

4.如果一個datanode出現宕機,恢復流程是什麼樣的?

5.通常你是如何解決Haddop的NameNode宕機的,流程是什麼?

6.描述一下NameNode對元數據的管理

7.NameNode對元數據的管理機制是什麼?

8.詳細描述一下Yarn的調度流程?

9.講解一下Hadoop中combiner和partition的作用

10.你在MapReduce過程中遇到過數據傾斜問題嗎?你是如何處理的?

11.Hadoop的Shuffle分爲哪幾個階段?有什麼特點

12.Mapreduce的map數量和reduce數量是由什麼決定的?

13.你對MapReduce做過什麼優化?有什麼經驗?

14.用過Combiner嗎?什麼情況要使用Combiner?

15.講解一下MapReduce的流程?

16.HDFS的系統架構是如何保證數據安全的?

17.在通過客戶端向HDFS中寫數據的時候,如果某一臺機器宕機了,會怎麼處理

18.你對Hadoop集羣做過哪些優化?有哪些常用的優化措施?

19.寫出MapReduce求TopN的思路

20.Hadoop集羣中有哪些進程?他們各自有什麼作用?

21.Hadoop的job和Task之間的區別是什麼?

22.Hadoop高可用HA模式如何配置?工作原理是什麼?

23.安裝過集羣嗎?大概需要哪幾步驟?

24.fsimage和edit的區別

25.詳細描述Yarn的三大調度策略

26.說出一些hadoop的常用shell命令

27.如何用MapReduce實現求用戶PV TOP10?

MapReduce部分深入

1.談談Hadoop序列化和反序列化及自定義bean對象實現序列化?

2.FileInputFormat切片機制

3.在一個運行的Hadoop 任務中,什麼是InputSplit?

4.如何判定一個job的map和reduce的數量?

  1. Maptask的個數由什麼決定?

6.MapTask和ReduceTask工作原理和機制

7.描述mapReduce有幾種排序及排序發生的階段

8.描述mapReduce中shuffle階段的工作流程,如何優化shuffle階段

9.描述mapReduce中combiner的作用是什麼,一般使用情景,哪些情況不需要,及和reduce的區別?

10.如果沒有定義partitioner,那數據在被送達reducer前是如何被分區的?

11.MapReduce 出現單點負載多大,怎麼負載平衡?

12.MapReduce 怎麼實現 TopN? 寫出關鍵代碼

13.Hadoop的緩存機制(DistributedCache)

14.如何使用MapReduce實現兩個表的join?

15.什麼樣的計算不能用MapReduce來提速?

16.ETL是哪三個單詞的縮寫,說說你用過的ETL場景和哪些技術點?

HDFS部分深入

  1. HDFS 中的 block 默認保存幾份?

2.HDFS 默認 BlockSize 是多大?

3.負責HDFS數據存儲的是哪一部分?

4.SecondaryNameNode的目的是什麼?

5.文件大小設置,增大有什麼影響?

6.hadoop的塊大小,從哪個版本開始是128M

7.HDFS的存儲機制

8.Secondary Namenode工作機制?

9.NameNode與SecondaryNameNode 的區別與聯繫?

10.HDFS組成架構

11.HAnamenode 是如何工作的?

YARN部分深入

1.簡述hadoop1與hadoop2 的架構異同?

2.爲什麼會產生 yarn,它解決了什麼問題,有什麼優勢?

3.HDFS的數據壓縮算法?

4.Hadoop的調度器總結?

5.MapReduce 2.0 容錯性?

6.Mapreduce推測執行算法及原理?

優化和其他問題

1.MapReduce跑得慢的原因?

2.MapReduce優化方法?

3.HDFS小文件優化方法?

原文參考:《MapReduce/HDFS/YARN面試題70連擊》 答案都在文中哦。

歡迎關注,《大數據成神之路》系列文章

歡迎關注,《大數據成神之路》系列文章

歡迎關注,《大數據成神之路》系列文章

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章