[大數據面試]-- 6.Hadoop 題目

============================================================================================

1、集羣規模、配置怎樣?

2、namenode端口

3、Hadoop的集羣管理模式

4、如何更改輸出文件的名稱

5、Mapereduce是多進程模式、Spark是多線程模式(task用完資源就釋放,啓動task不費時間)

6、hdfs-default.xml:修改存儲閾值的參數

7、MapReduce調優

8、yarn的組件:ResourceManager、NodeManager、Container、ApplicationMaster

9、HDFS文件系統的優缺點

HDFS優點:

  • 數據冗餘(多副本存儲)、硬件容錯
  • 處理流式的數據訪問,一次寫入多次讀取
  • 適合存儲大文件
  • 可以構建在廉價機器上,節省成本

HDFS缺點:

  • 不適合低延遲數據訪問
  • 無法高效存儲大量小文件:因爲即便只有1M的文件,也是擁有自己的元數據的。所以如果存在大量的小文件,那麼相對應的元數據需要佔用的存儲空間就越大,元數據過多會給NameNode增加壓力

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章