============================================================================================
1、集羣規模、配置怎樣?
2、namenode端口
3、Hadoop的集羣管理模式
4、如何更改輸出文件的名稱
5、Mapereduce是多進程模式、Spark是多線程模式(task用完資源就釋放,啓動task不費時間)
6、hdfs-default.xml:修改存儲閾值的參數
7、MapReduce調優
8、yarn的組件:ResourceManager、NodeManager、Container、ApplicationMaster
9、HDFS文件系統的優缺點
HDFS優點:
- 數據冗餘(多副本存儲)、硬件容錯
- 處理流式的數據訪問,一次寫入多次讀取
- 適合存儲大文件
- 可以構建在廉價機器上,節省成本
HDFS缺點:
- 不適合低延遲數據訪問
- 無法高效存儲大量小文件:因爲即便只有1M的文件,也是擁有自己的元數據的。所以如果存在大量的小文件,那麼相對應的元數據需要佔用的存儲空間就越大,元數據過多會給NameNode增加壓力