乾貨|50個大數據面試問題及答案第三篇:10個大數據Hadoop面試問題

在上兩次文章中我們慧都網給大家分享了,對於剛剛從事大數據行業和已從事大數據行業的面試者可能會遇到的專業面試題20道,如果還沒有閱讀的朋友可以跳轉觀看哦!

乾貨|50個大數據面試問題及答案第一篇:10個大數據面試入門級問題

乾貨|50個大數據面試問題及答案第二篇:10個大數據面試中級問題 

10個大數據Hadoop面試的專業問題

Hadoop是最受歡迎的大數據框架之一,如果您正在進行Hadoop面試,請爲Big Data Hadoop準備這些基本級別的面試問題。無論您是要參加Hadoop開發人員還是Hadoop Admin面試,這些問題都將對您有所幫助。

21.解釋Hadoop和RDBMS之間的區別。

答: Hadoop和RDBMS之間的區別如下 :

Hadoop和RDBMS之間的區別

22. Hadoop中常見的輸入格式是什麼?

答:以下是Hadoop中常見的輸入格式 -

  • 文本輸入格式 - Hadoop中定義的默認輸入格式是文本輸入格式。
  • 序列文件輸入格式 -要讀取序列中的文件,請使用序列文件輸入格式。
  • 鍵值輸入格式 -用於純文本文件(分成行的文件)的輸入格式是鍵值輸入格式。

23.解釋Hadoop的一些重要特性。

答: Hadoop支持大數據的存儲和處理。它是處理大數據挑戰的最佳解決方案。Hadoop的一些重要功能是 -

  • 開源 - Hadoop是一個開源框架,這意味着它是免費提供的。此外,允許用戶根據他們的要求更改源代碼。
  • 分佈式處理 - Hadoop支持數據的分佈式處理,即更快的處理。Hadoop HDFS中的數據以分佈式方式存儲,MapReduce負責數據的並行處理。
  • 容錯力 - Hadoop具有高度容錯能力。默認情況下,它爲不同節點的每個塊創建三個副本。這個數字可以根據要求改變。因此,如果一個節點發生故障,我們可以從另一個節點恢復數據。節點故障的檢測和數據的恢復是自動完成的。
  • 可靠性 - Hadoop以獨立於計算機的可靠方式在羣集上存儲數據。因此,存儲在Hadoop環境中的數據不受機器故障的影響。
  • 可伸縮性 - Hadoop的另一個重要特性是可伸縮性。它與其他硬件兼容,我們可以輕鬆地將新硬件分配給節點。
  • 高可用性 -即使在硬件故障後,也可以訪問存儲在Hadoop中的數據。如果硬件發生故障,可以從另一個路徑訪問數據。

24.解釋Hadoop運行的不同模式。

答: Apache Hadoop運行在以下三種模式 -

  • 獨立(本地)模式 -默認情況下,Hadoop以本地模式運行,即在非分佈式單節點上運行。此模式使用本地文件系統執行輸入和輸出操作。此模式不支持使用HDFS,因此用於調試。在此模式下,配置文件不需要自定義配置。
  • 僞分佈式模式 -在僞分佈式模式下,Hadoop就像獨立模式一樣在單個節點上運行。在此模式下,每個守護程序都在單獨的Java進程中運行。由於所有守護進程都在單個節點上運行,因此主節點和從節點都有相同的節點。
  • 完全分佈式模式 -在完全分佈式模式下,所有守護進程都在不同的單個節點上運行,從而形成一個多節點集羣。主節點和從節點有不同的節點。

25.解釋Hadoop的核心組件。

答: Hadoop是一個開源框架,用於以分佈式方式存儲和處理大數據。Hadoop的核心組件是 -

  • HDFS(Hadoop分佈式文件系統) - HDFS是Hadoop的基本存儲系統。在商用硬件集羣上運行的大型數據文件存儲在HDFS中。即使硬件出現故障,它也能以可靠的方式存儲數據。

Hadoop的核心組件

Hadoop的核心組件

  • Hadoop MapReduce - MapReduce是負責數據處理的Hadoop層。它編寫了一個應用程序來處理存儲在HDFS中的非結構化和結構化數據。它負責通過將數據劃分爲獨立任務來並行處理大量數據。處理分兩個階段完成Map和Reduce。Map是指定複雜邏輯代碼的第一個處理階段,Reduce是指定輕量級操作的第二階段處理。
  • YARN - Hadoop中的處理框架是YARN。它用於資源管理並提供多種數據處理引擎,即數據科學,實時流和批處理。

26.“MapReduce”程序中的配置參數是什麼?

答:“MapReduce”框架中的主要配置參數是:

  • 在分佈式文件系統中輸入Jobs的位置
  • 在分佈式文件系統中輸出Jobs的位置
  • 數據的輸入格式
  • 數據的輸出格式
  • 包含map函數的類
  • 包含reduce函數的類
  • 包含mapper,reducer和驅動程序類的JAR文件

27. HDFS中的塊是什麼?它在Hadoop 1和Hadoop 2中的默認大小是多少?我們可以改變塊大小嗎?

答:塊是硬盤中最小的連續數據存儲。對於HDFS,塊存儲在Hadoop集羣中。

  • Hadoop 1中的默認塊大小爲:64 MB
  • Hadoop 2中的默認塊大小爲:128 MB

是的,我們可以使用位於hdfs-site.xml文件中的參數--dfs.block.size 來更改塊大小。

28.什麼是MapReduce框架中的分佈式緩存

答:分佈式緩存是Hadoop MapReduce框架的一項功能,用於緩存應用程序的文件。Hadoop框架使緩存文件可用於在數據節點上運行的每個map / reduce任務。因此,數據文件可以作爲指定作業中的本地文件訪問緩存文件。

29. Hadoop的三種運行模式是什麼?

答:Hadoop的三種運行模式如下:

Ⅰ、獨立或本地:這是默認模式,不需要任何配置。在此模式下,Hadoop的以下所有組件都使用本地文件系統並在單個JVM上運行 -

  • NameNode
  • 數據管理部
  • ResourceManager
  • 節點管理器

II、僞分佈式:在此模式下,所有主從Hadoop服務都在單個節點上部署和執行。

III、完全分佈式:在此模式下,Hadoop主服務器和從服務器在不同的節點上部署和執行。

30.在Hadoop中解釋JobTracker

答:JobTracker是Hadoop中的JVM進程,用於提交和跟蹤MapReduce作業。

JobTracker按順序在Hadoop中執行以下活動 :

  • JobTracker接收客戶端應用程序提交給作業跟蹤器的作業;
  • JobTracker通知NameNode確定數據節點;
  • JobTracker根據可用的插槽分配TaskTracker節點;
  • 它提交了已分配的TaskTracker節點的工作;
  • JobTracker監視TaskTracker節點;
  • 當任務失敗時,會通知JobTracker並決定如何重新分配任務。

歡迎諮詢慧都在線客服,我們將幫您轉接大數據專家團隊,併發送相關資料給您!

下期預告:乾貨|50個大數據面試問題及答案第四篇:Hadoop開發人員面試新手的問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章