spark、hadoop大數據計算面試題彙總

地址：https://developer.aliyun.com/ask/256456?utm_content=g_1000084791
Hadoop 相關試題 Hive 相關試題

hive表關聯查詢，如何解決數據傾斜的問題?

hive內部表和外部表的區別

Spark 相關試題 Spark Core面試篇01

隨着Spark技術在企業中應用越來越廣泛，Spark成爲大數據開發必須掌握的技能。希望能給大家帶來幫助。

Spark master使用zookeeper進行HA的，有哪些元數據保存在Zookeeper？

Spark master HA 主從切換過程不會影響集羣已有的作業運行，爲什麼？

Spark on Mesos中，什麼是的粗粒度分配，什麼是細粒度分配，各自的優點和缺點是什麼？

如何配置spark master的HA？

Apache Spark有哪些常見的穩定版本，Spark1.6.0的數字分別代表什麼意思？

driver的功能是什麼？

spark的有幾種部署模式，每種模式特點？

Spark技術棧有哪些組件，每個組件都有什麼功能，適合什麼應用場景？

Spark中Work的主要工作是什麼？

Spark爲什麼比mapreduce快？

簡單說一下hadoop和spark的shuffle相同和差異？

Mapreduce和Spark的都是並行計算，那麼他們有什麼相同和區別

RDD機制？

spark有哪些組件？

spark工作機制？

spark的優化怎麼做？

簡要描述Spark分佈式集羣搭建的步驟

什麼是RDD寬依賴和窄依賴？

spark-submit的時候如何引入外部jar包

cache和pesist的區別

二、選擇題

Spark 的四大組件下面哪個不是

下面哪個端口不是 spark 自帶服務的端口

spark 1.4 版本的最大變化：

Spark Job 默認的調度模式：

哪個不是本地模式運行的個條件：

下面哪個不是 RDD 的特點：

關於廣播變量，下面哪個是錯誤的：

關於累加器，下面哪個是錯誤的：

Spark 支持的分佈式部署方式中哪個是錯誤的：

Stage 的 Task 的數量由什麼決定：

下面哪個操作是窄依賴：

下面哪個操作肯定是寬依賴：

spark 的 master 和 worker 通過什麼方式進行通信的：

默認的存儲級別：

spark.deploy.recoveryMode 不支持那種:

下列哪個不是 RDD 的緩存方法?

Task 運行在下來哪裏個選項中 Executor 上的工作單元:

hive 的元數據存儲在 derby 和 MySQL 中有什麼區別：

DataFrame 和 RDD 最大的區別：

Master 的 ElectedLeader 事件後做了哪些操作

【Spark面試2000題41-70】Spark core面試篇02

cache後面能不能接其他算子,它是不是action操作？

reduceByKey是不是action？

數據本地性是在哪個環節確定的？

RDD的彈性表現在哪幾點？

常規的容錯方式有哪幾種類型？

RDD通過Linage（記錄數據更新）的方式爲何很高效？

RDD有哪些缺陷？

說一說Spark程序編寫的一般步驟？

Spark有哪兩種算子？

Spark提交你的jar包時所用的命令是什麼？

Spark有哪些聚合類的算子,我們應該儘量避免什麼類型的算子？

你所理解的Spark的shuffle過程？

你如何從Kafka中獲取數據？

對於Spark中的數據傾斜問題你有什麼好的方案？

RDD創建有哪幾種方式？

Spark中數據的位置是被誰管理的？

collect功能是什麼，其底層是怎麼實現的？

Spaek程序執行，有時候默認爲什麼會產生很多task，怎麼修改默認task執行個數？

爲什麼Spark Application在沒有獲得足夠的資源，job就開始執行了，可能會導致什麼問題發生?

列舉你常用的action？

Spark爲什麼要持久化，一般什麼場景下要進行persist操作？爲什麼要進行持久化？

爲什麼要進行序列化

介紹一下cogroup rdd實現原理，你在什麼場景下用過這個rdd？

下面這段代碼輸出結果是什麼？

一、面試30題(第71-100題)

Spark使用parquet文件存儲格式能帶來哪些好處？

Executor之間如何共享數據？

Spark累加器有哪些特點？

spark hashParitioner的弊端是什麼？

如何在一個不確定的數據規模的範圍內進行排序？

spark hashParitioner的弊端是什麼？

RangePartitioner分區的原理?

介紹parition和block有什麼關聯關係？

Spark應用程序的執行過程是什麼？

hbase預分區個數和spark過程中的reduce個數相同麼

如何理解Standalone模式下，Spark資源分配是粗粒度的？

Spark如何自定義partitioner分區器？

spark中task有幾種類型？

union操作是產生寬依賴還是窄依賴？

rangePartioner分區器特點？

什麼是二次排序，你是如何用spark實現二次排序的？互聯網公司常面

如何使用Spark解決TopN問題？

如何使用Spark解決分組排序問題？

窄依賴父RDD的partition和子RDD的parition是不是都是一對一的關係？

Hadoop中，Mapreduce操作的mapper和reducer階段相當於spark中的哪幾個算子？

什麼是shuffle，以及爲什麼需要shuffle？

不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快？

Spark中的HashShufle的有哪些不足？

conslidate是如何優化Hash shuffle時在map端產生的小文件？

Sort-basesd shuffle產生多少個臨時文件

Sort-based shuffle的缺陷?

Spark shell啓動時會啓動derby?

spark.default.parallelism這個參數有什麼意義，實際生產中如何設置？

spark.storage.memoryFraction參數的含義,實際生產中如何調優？

spark.shuffle.memoryFraction參數的含義，以及優化經驗？

介紹一下你對Unified Memory Management內存管理模型的理解？

【Spark面試2000題101-130】Spark on Yarn面試篇04 本篇題集主要是Spark on Yarn相關的面試題，主要涉及Spark on Yarn、Yarn、Mapreduce相關面試題。

一、面試題30題

MRV1有哪些不足？

描述Yarn執行一個任務的過程？

Yarn中的container是由誰負責銷燬的，在Hadoop Mapreduce中container可以複用麼？

提交任務時，如何指定Spark Application的運行模式？

不啓動Spark集羣Master和work服務，可不可以運行Spark程序？

Spark中的4040端口由什麼功能?

spark on yarn Cluster 模式下，ApplicationMaster和driver是在同一個進程麼？

如何使用命令查看application運行的日誌信息

Spark on Yarn 模式有哪些優點？

談談你對container的理解？

運行在yarn中Application有幾種類型的container？

Spark on Yarn架構是怎麼樣的？

Executor啓動時，資源通過哪幾個參數指定？

爲什麼會產生yarn，解決了什麼問題，有什麼優勢?

Mapreduce的執行過程?

一個task的map數量由誰來決定？

reduce後輸出的數據量有多大？

你的項目提交到job的時候數據量有多大？

你們提交的job任務大概有多少個？這些job執行完大概用多少時間？

你們業務數據量多大？有多少行數據？

如何殺死一個正在運行的job

列出你所知道的調度器，說明其工作原理

YarnClient模式下，執行Spark SQL報這個錯：

spark.driver.extraJavaOptions這個參數是什麼意思，你們生產環境配了多少？

導致Executor產生FULL gc 的原因，可能導致什麼問題？

Combiner 和partition的作用

Hbase 相關試題
Storm 相關試題
大數據相關試題
面試|大數據相關試題-面試篇07
面試系列重新繼續發佈，下面這個是從網上搜來的，題目都是好題目，答案作爲參考是可以的，作爲學習素材，僅供大家參考。

簡答說一下hadoop的map-reduce編程模型

hadoop的TextInputFormat作用是什麼，如何自定義實現

hadoop和spark的都是並行計算，那麼他們有什麼相同和區別

爲什麼要用flume導入hdfs，hdfs的構架是怎樣的

map-reduce程序運行的時候會有什麼比較常見的問題

簡單說一下hadoop和spark的shuffle過程

Hive中存放是什麼？

Hive與關係型數據庫的關係？

Flume工作機制是什麼？

Sqoop工作原理是什麼？

Hbase行健列族的概念，物理模型，表的設計原則？

Spark Streaming和Storm有何區別？

mllib支持的算法？

簡答說一下hadoop的map-reduce編程模型？

Hadoop平臺集羣配置、環境變量設置？

Hadoop性能調優？

Hadoop高併發？

hadoop的TextInputFormat作用是什麼，如何自定義實現？

hadoop和spark的都是並行計算，那麼他們有什麼相同和區別？

爲什麼要用flume導入hdfs，hdfs的構架是怎樣的？

map-reduce程序運行的時候會有什麼比較常見的問題？

簡單說一下hadoop和spark的shuffle過程？

RDD機制？

kafka工作原理？

ALS算法原理？

kmeans算法原理？

canopy算法原理？

樸素貝葉斯分類算法原理？

關聯規則挖掘算法apriori原理？

這個是什麼原因導致的？

不配置spark.deploy.recoveryMode選項爲ZOOKEEPER，會有什麼不好的地方

多Master如何配置

No Space Left on the device

java.lang.OutOfMemory, unable to create new native

Worker節點中的work目錄佔用許多磁盤空間

spark-shell提交Spark Application如何解決依賴庫

Spark在發佈應用的時候，出現連接不上master問題

ERROR XSDB6: Another instance 。。。

java.lang.IllegalArgumentException: java.net.UnknownHostException: dfscluster

問題：在執行yarn集羣或者客戶端時，報以上錯誤

Spark Streaming 和kafka整合後讀取消息報錯： OffsetOutOfRangeException

運行Spark-SQL報錯

spark、hadoop大數據計算面試題彙總

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

nodejs學習06——小案例

spark、hadoop大數據計算面試題彙總

hive源碼編譯

spark streaming任務,讀kafka寫入mysql

一、Spark官網走讀筆記

二十四、Flink進階--Flink sql轉換爲JobGraph過程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結