基於大數據已從業者的面試問題

如果您在大數據世界中有相當豐富的工作經驗，那麼根據您以前的經驗，您將在大數據面試中被問到一些問題。這些問題可能與您的經驗或基於場景有關。所以，準備好這些最好的大數據面試問題和答案。

11.您有大數據經驗嗎？如果有，請分享一下。

如何處理：問題沒有具體答案，因爲這是一個主觀問題，答案取決於您以前的經驗。在大數據訪談期間詢問這個問題，面試官想要了解您以前的經驗，並且還試圖評估您是否適合項目要求。

那麼，你將如何處理這個問題呢？如果您有以前的經驗，請在過去的職位上開始履行職責，並慢慢向對話添加詳細信息。告訴他們您使項目成功的貢獻。一般來說，這個問題是在面試中提出的第二或第三個問題。後面的問題是基於這個問題，所以請仔細回答。您還應該注意不要過度使用以前工作的一個方面。保持簡單和重點。

12.您更喜歡好的數據還是好的模型？爲什麼？

如何處理：這是一個棘手的問題，但通常在大數據面試中被問到。它要求您在好的數據或好的模型之間進行選擇。作爲候選人，您應該嘗試根據自己的經驗回答這個問題。許多公司希望遵循嚴格的數據評估流程，這意味着他們已經選擇了數據模型。在這種情況下，擁有良好的數據可能會改變遊戲規則。另一種方式也適用於基於良好數據選擇的模型。

正如我們已經提到的，請根據您的經驗回答。但是，不要說擁有良好的數據和良好的模型很重要，因爲在現實生活中很難同時擁有這兩個數據。

13.您是否會優化算法或代碼以使其運行更快？

如何處理：這個問題的答案應該始終是“是”。真實世界的性能很重要，它不依賴於您在項目中使用的數據或模型。

面試官可能也有興趣知道您是否有任何以前的代碼或算法優化經驗。對於初學者來說，這顯然取決於他過去從事過哪些項目。有經驗的候選人也可以相應地分享他們的經驗。但是，請誠實地對待您的工作，如果您過去沒有優化代碼，那就沒關係了。只需讓面試官瞭解您的真實體驗，您就可以破解大數據訪談。

14.您如何處理數據準備？

如何處理：數據準備是大數據項目的關鍵步驟之一。大數據訪談可能涉及至少一個基於數據準備的問題。當面試官問你這個問題時，他想知道你在數據準備過程中採取了哪些步驟或預防措施。

如您所知，需要數據準備才能獲得必要的數據，然後可以進一步用於建模目的。你應該把這個消息傳達給面試官。您還應該強調要使用的模型類型以及選擇特定模型的原因。最後，但並非最不重要，您還應該討論重要的數據準備術語，如轉換變量，異常值，非結構化數據，識別差距等。

15.您如何將非結構化數據轉換爲結構化數據？

如何處理：非結構化數據在大數據中非常常見。應將非結構化數據轉換爲結構化數據，以確保正確的數據分析。您可以通過簡要區分兩者來開始回答問題。完成後，您現在可以討論用於將一個表單轉換爲另一個表單的方法。您也可以分享您所做的真實情況。如果您最近剛畢業，那麼您可以分享與您的學術項目相關的信息。

通過正確回答這個問題，您發出信號表明您瞭解結構化和非結構化數據的類型，並且具有使用這些數據的實踐經驗。如果你具體回答這個問題，你肯定能夠破解大數據訪談。

16.哪種硬件配置對Hadoop作業最有利？

配置4/8 GB RAM和ECC內存的雙處理器或核心機器是運行Hadoop操作的理想選擇。但是，硬件配置因項目特定的工作流程和流程而異，因此需要進行自定義。

17.當兩個用戶嘗試訪問HDFS中的同一文件時會發生什麼？

HDFS NameNode支持獨佔只寫。因此，只有第一個用戶將收到文件訪問權限，第二個用戶將被拒絕。

18.如何在NameNode關閉時恢復它？

需要執行以下步驟才能啓動並運行Hadoop集羣：

使用文件系統元數據副本的FsImage啓動新的NameNode。
配置DataNode以及客戶端以使它們確認新啓動的NameNode。
一旦新的NameNode完成加載從DataNode收到足夠塊報告的最後一個檢查點FsImage，它將開始爲客戶端提供服務。

在大型Hadoop集羣的情況下，NameNode恢復過程會消耗大量時間，這在日常維護的情況下將成爲更大的挑戰。

19.您對Hadoop中的Rack Awareness有何瞭解？

它是一種應用於NameNode的算法，用於決定塊及其副本的放置方式。根據機架定義，同一機架內的DataNode之間的網絡流量最小化。例如，如果我們將複製因子視爲3，則將兩個副本放在一個機架上，而將第三個副本放在單獨的機架中。

20.“HDFS Block”和“Input Split”有什麼區別？

HDFS將輸入數據物理地劃分爲用於處理的塊，這被稱爲HDFS塊。

輸入拆分是映射器用於映射操作的邏輯數據劃分。

歡迎諮詢慧都在線客服，我們將幫您轉接大數據專家團隊，併發送相關資料給您！

下集預告：乾貨|50個大數據面試問題及答案第三篇：10個大數據Hadoop面試問題

乾貨|50個大數據面試問題及答案第二篇：10個大數據面試中級問題

基於大數據已從業者的面試問題

python gdal 安裝使用（Windows， python 3.6.8）

SolidWorks 2020新增功能之性能提升

探索Solidworks Simulation中的2D簡化功能

精益生產核心管理工具：可視化看板！

ERP帶來的困惑，APS幫你解決

速速收藏！使用Apache Spark實現ETL 300％的速度提升

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結