乾貨|50個大數據面試問題及答案完結篇:經驗豐富的Hadoop開發人員面試問題

截止到現在我們已經更新了四期,涵蓋了大數據新人面試、大數據經驗者面試、大數據hadoop面試和hadoop開發新人面試四個板塊,如果對其中的版塊有興趣的小夥伴,點擊下方文章跳轉觀看。

《乾貨|50個大數據面試問題及答案第一篇:10個大數據面試入門級問題》

《乾貨|50個大數據面試問題及答案第二篇:10個大數據面試中級問題 》

《乾貨|50個大數據面試問題及答案第三篇:10個大數據Hadoop面試問題》

《乾貨|50個大數據面試問題及答案第四篇:Hadoop開發人員新手面試問題》

馬上開始我們今天的分享,祝您在面試的時候能有所幫助!

經驗豐富的Hadoop開發人員面試問題

面試官對經驗豐富的Hadoop開發人員有更多的期望,因此他們會提一些相對有難度的問題。因此,如果您已經獲得了一些經驗,請不要忘記涵蓋基於命令,基於場景,基於真實體驗的問題。在這裏,我們爲有經驗的Hadoop開發人員帶來一些示例面試問題。

41.如何重啓Hadoop中的所有守護進程?

答:要重新啓動所有守護進程,需要先停止所有守護進程。Hadoop目錄包含sbin目錄,該目錄存儲腳本文件以在Hadoop中停止和啓動守護進程。

使用stop daemons命令/sbin/stop-all.sh停止所有守護進程,然後使用/sin/start-all.sh命令再次啓動所有守護進程。

42.在Hadoop中使用jps命令有什麼用?

答: jps命令用於檢查Hadoop守護程序是否正常運行。此命令顯示在計算機上運行的所有守護程序,即Datanode,Namenode,NodeManager,ResourceManager等。

43.解釋覆蓋HDFS中複製因子的過程。

答:有兩種方法可以覆蓋HDFS中的複製因子。

方法1:在文件基礎上

在此方法中,使用Hadoop FS shell在文件的基礎上更改複製因子。用於此的命令是:

$ hadoop fs - setrep -w2 / my / test_file

這裏,test_file是複製因子將設置爲2的文件名。

方法2:在目錄基礎上

在此方法中,複製因子在目錄基礎上更改,即修改給定目錄下所有文件的複製因子。

$ hadoop fs -setrep -w5 / my / test_dir

這裏,test_dir是目錄的名稱,目錄的複製因子,其中的所有文件都將設置爲5。

44.沒有任何數據的NameNode會發生什麼?

答案: Hadoop中不存在沒有任何數據的NameNode。如果有NameNode,它將包含一些數據或它將不存在。

45.解釋NameNode恢復過程。

答案: NameNode恢復過程涉及下面提到的使Hadoop集羣運行的步驟:

  • 在恢復過程的第一步中,文件系統元數據副本(FsImage)啓動一個新的NameNode。
  • 下一步是配置DataNodes和Clients。然後,這些DataNode和客戶端將確認新的NameNode。
  • 在最後一步中,新的NameNode在完成最後一個檢查點FsImage加載和接收來自DataNodes的塊報告時開始爲客戶端提供服務。

注意:不要忘記,這個NameNode恢復過程在大型Hadoop集羣上消耗了大量時間。因此,它使日常維護變得困難。因此,建議使用HDFS高可用性架構。

46. Hadoop CLASSPATH如何啓動或停止Hadoop守護進程是必不可少的?

CLASSPATH包含必要的目錄,其中包含用於啓動或停止Hadoop守護程序的jar文件。因此,設置CLASSPATH對於啓動或停止Hadoop守護進程至關重要。

但是,每次設置CLASSPATH都不是我們遵循的標準。通常CLASSPATH寫在/etc/hadoop/hadoop-env.sh文件中。因此,一旦我們運行Hadoop,它將自動加載CLASSPATH。

47.爲什麼HDFS只適用於大型數據集而不適用於許多小文件?

這是由於NameNode的性能問題。通常,NameNode被分配了巨大的空間來存儲大規模文件的元數據。元數據應該來自單個文件,以實現最佳的空間利用率和成本效益。對於小尺寸文件,NameNode不使用整個空間,這是性能優化問題。

48.爲什麼我們需要Hadoop中的數據位置?

HDFS中的數據集存儲爲Hadoop集羣的DataNodes中的塊。在MapReduce作業執行期間,各個Mapper處理塊(Input Splits)。如果數據不在Mapper執行作業的同一節點中,則需要通過網絡將數據從DataNode複製到映射器DataNode。

現在,如果MapReduce作業具有超過100個Mapper並且每個Mapper嘗試同時從集羣中的其他DataNode複製數據,則會導致嚴重的網絡擁塞,這是整個系統的一個重要性能問題。因此,數據接近計算是一種有效且具有成本效益的解決方案,在技術上稱爲Hadoop中的數據位置。它有助於提高系統的整體吞吐量。

數據局部性能的3 種:

  • 數據本地 - 在此類型數據和映射器駐留在同一節點上。這是最接近數據和最優選的方案。
  • 機架本地 - 在這種情況下,映射器和數據駐留在同一機架上,但位於不同的數據節點上。
  • 不同的機架 - 在這種情況下,映射器和數據駐留在不同的機架上。

49. DFS可以處理大量數據,爲什麼我們需要Hadoop框架?

Hadoop不僅用於存儲大數據,還用於處理這些大數據。雖然DFS(分佈式文件系統)也可以存儲數據,但它缺少以下功能:

  • 它不容錯
  • 網絡上的數據移動取決於帶寬。

50.什麼是Sequencefileinputformat?

Hadoop使用特定的文件格式,稱爲序列文件。序列文件將數據存儲在序列化鍵值對中。Sequencefileinputformat是讀取序列文件的輸入格式。

50個大數據面試問題及答案系列已經全部完結,慧都網衷心的祝願您在面試中取得成功,不管您是新人還是經驗豐富的老手都希望您能在我們分享的50個面試問題和答案中獲取您想要的東西。

如果您發現除我們分享的50個問題中並沒有涵蓋您認爲的專業問題,您可以評論留言給我們,我們期待和您一起分享。

與此同時歡迎諮詢慧都在線客服,我們將幫您轉接大數據專家團隊,併發送相關資料給您!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章