【大數據面試】--2019年面試和筆試題目彙總

一、前言       

       經過一段時間的面試和筆試,已經徹底快讓自己失去了信心!年底了,找工作真難!但是這也對個人將來的規劃和學習工作有了一定的提示。下面將把個人算是面經吧,分享出來,希望對各位有幫助。
     

二、思考

  1. 每次進入一家公司,即要做好離開的準備! -- 因爲公司不是你的家
  2. 一定要建立起自己的知識庫,必須頻繁循環下面的過程:獲取、應用、更新和存儲! -- 與時俱進
  3. 要既會做人,還要會做事! -- 做人在前,做事在後 
  4. 你只是一般人而已,沒有誰會主動崇拜一般人!  -- 我們只是地球上微不足道的一個生物而已
  5. 凡事要做預測並做好準備! -- 凡事預則立,不預則廢
  6. 這世界上每天都在發生許多事情,走好自己的路就好。 -- 窮則獨善其身,達則兼濟天下
  7. 有耐心,不衝動,居安思危。 -- 以靜制動
  8. 沒有誰欠誰的,這個世界每天都在發生事情。 -- 有你和沒有你,公司一樣會運行,除非你是不可取代的
  9. 欠的,早晚都要還。   -- 善有善報,惡有惡報,不是不抱,時候未到            
  10. 你沒有經歷過,感受過,就沒有資格去評論他人。  -- 你又不是別人,怎麼知道他的經歷和想法呢
  11. 別太過自信,做人需要謙虛謹慎和穩重。                -- 適當的謙虛是可以讓我們有一定的進步的
  12. 不卑不亢,簡簡單單,卻是需要用一生去體會的詞語。  
  13. 不要站在道德至高點去指責別人,要多傾聽和了解。   
  14. 你沒有必要去討論別人怎樣,想想,你自己是怎樣的。
  15. 你應該往那個點奔,或者創造它,而不是抱怨和自欺欺人。

三、面試準備

  1、步驟

       寫簡歷、系統複習、投簡歷、獲取現場面試機會、重點複習企業職位要求、面試、總結等。

  • 重要的事情說3遍,一定要提前3個月開始準備!!!否則很容易歇菜!!!複習的要點包括:

(1)Java 面試寶典

(2)刷題:選擇、填空、簡答、代碼編程

(3)Hive 、Spark 、Kafka 、Flink和 Hadoop 的基礎知識

(4)智力題要了解下

(5)簡歷好好寫

(6)面試禮儀:謝謝、您好、回答問題速度不可太快。

(7)面試時間:最好一天一個,並且都安排到下午 14:00 ,這樣能少跑路。

2、接下來要做的事

  • 整理簡歷
  • 複習面試過程中問到的問題
  • 好好看看面試的公司的基本要求
  • 投簡歷
  • 面試和總結

3、找工作重要的事

  • 學歷:學歷,還是學歷!!!沒有比較好的學歷,大廠可能就別想了。
  • 技術:博客、github和開源貢獻
  • 證書:軟考、架構師等

四、面試流程

一般情況,公司都有一面、二面、三面和終面;但是也有可能只有3面,或者合併成2面。

  • 1、初面:基本上是和你同級別的人,不用擔心,他的技術水平可能比你高、更有可能比你低!正常發揮就行。
  • 2、二面:這可能是你未來的直接領導,回答時多想想再說,儘量往自己會的方向引導,留下好印象!
  • 3、三面:部門領導、技術總監或者 CTO,他們更多問的是綜合能力。那麼回答時,往這個方向回答:在你的項目中,你負責什麼?解決了什麼問題?有什麼收穫和分享?
  • 4、終面:人事小姐姐一般的目標是討價還價了,所以儘量不要說自己沒有 offer ,其他的實話實說就行。

 

五、面試和筆試題

以下是A、B、C、D和E等公司的面試及筆試彙總,供各位參考。

1、HashMap 和 Hashtable 區別

2、Java 垃圾回收機制和生命週期

3、怎麼解決 Kafka 數據丟失的問題

4、zookeeper 是如何保證數據一致性的

5、hadoop 和 spark 在處理數據時,處理出現內存溢出的方法有哪些?

6、java 實現快速排序

7、設計微信羣發紅包數據庫表結構(包含表名稱、字段名稱、類型)

8、如何選型:業務場景、性能要求、維護和擴展性、成本、開源活躍度

9、spark 調優

10、Flink和spark的 通信框架

11、java 代理

12、java的內存溢出和內存泄漏

13、hadoop 的組件有哪些?Yarn 的調度器有哪些?

14、hadoop 的 shuffle 過程

15、簡述 spark 集羣運行的幾種模式

16、RDD 中的 reducebyKey 與 groupByKey 哪個性能高?

17、簡述 HBase 的讀寫過程

18、在 2.5億個整數中,找出不重複的整數,注意:內存不足以容納 2.5億個整數。

19、CDH 和 HDP 的區別

20、java 原子操作

21、Java 封裝、繼承和多態

22、JVM 模型

23、Flume taildirSorce 重複讀取數據解決方法

24、Flume 如何保證數據不丟

25、Java 類加載過程

26、Spark Task 運行原理

27、手寫一個線程安全的單例

28、設計模式

29、impala 和 kudu 的適用場景,讀寫性能如何

30、kafka ack

31、phoenix 創建索引的方式及區別

32、Flink TaskManager 和 Job Manager 通信

33、Flink 雙流 join方式

34、Flink state 管理和 checkpoint 的流程

35、Flink 分層架構

36、Flink 窗口

37、Flink watermark 如何處理亂序數據

38、Flink time

39、Flink 支持exactly-once 的 sink 和 source

40、Flink 提交作業的流程

41、Flink connect 和 join 區別

42、重啓 task 的策略

43、hive 的鎖

44、hive sql 優化方式

45、hadoop shuffle 過程和架構

46、如何優化 shuffle過程

47、冒泡排序和快速排序

48、Spark stage

49、spark mkrdd和Parrallilaze函數區別

50、Spark checkpoint 過程

51、二次排序

52、註冊 hive udf

53、SQL 去重方法

54、Hive 分析和窗口函數

55、Hadoop 容錯,一個節點掛掉然後又上線

56、掌握 JVM 原理

57、Java 併發原理

58、多線程的實現方法

59、RocksDBStatebackend實現(源碼級別)

60、HashMap、ConcurrentMap和 Hashtable 區別:https://www.jianshu.com/p/a91f72310545

61、Flink Checkpoint 是怎麼做的,作用到算子還是chain

62、Checkpoint失敗了的監控

63、String、StringBuffer和 StringBuilder的區別

64、Kafka存儲流程,爲什麼高吞吐:https://blog.51cto.com/12445535/2432350

65、Spark 優化方法舉例

66、keyby 的最大並行度

67、Flink 優化方法

68、kafka isr 機制

69、kafka partition 的 4個狀態

70、kafka 副本的 7個狀態

71、taskmanager 的數量:https://cloud.tencent.com/developer/article/1500184

72、if 和 switch 的性能及 switch 支持的參數

73、kafka 零拷貝:https://cloud.tencent.com/developer/article/1421266

74、hadoop 節點容錯機制:https://www.cnblogs.com/zhangyinhua/p/7681146.html

75、HDFS 的副本分佈策略

76、hadoop 彙總:https://www.cnblogs.com/gala1021/p/8552850.html

77、Kudu 和Impala 權限控制

78、Time_wait狀態?當server處理完client的請求後立刻closesocket此時會出現time_wait狀態.

79、三次握手交換了什麼? SYN,ACK,SEQ,窗口大小:https://blog.csdn.net/whuslei/article/details/6667471

3次握手建立鏈接,4次握手斷開鏈接。

80、hashmap 1.7和1.8 的區別? :https://blog.csdn.net/qq_36520235/article/details/82417949

1.7 是 數組+鏈表;1.8 是數組+鏈表+紅黑樹,爲了避免死循環、提高插入效率 log(N)

81、concurrenthashmap 1.7和1.8?

分段鎖,屬於細粒度,比 hashtable 效率高, cas

爲了保證原子操作和線程安全的

82、Kafka 的ack

-1 producer 只有收到分區內所有副本的成功寫入的通知才認爲推送消息成功了。

0 producer 發送一次就不再發送了,不管是否發送成功

1 producer 只要收到一個分區副本(leader的)成功寫入的通知就認爲推送消息成功了

83、sql 去重方法

group by 、distinct、窗口函數

84、哪些 hive sql 不能在 spark sql 上運行:https://spark.apache.org/docs/2.2.0/sql-programming-guide.html#unsupported-hive-functionality

85、 什麼情況下發生死鎖? (就是說說條件,然後舉個例子):https://blog.csdn.net/hd12370/article/details/82814348

多個進程在運行過程中因爭奪資源而造成的一種僵局,當進程處於這種僵持狀態時,若無外力作用,它們都將無法再向前推進。

86、事務隔離級別? 可重複讀、不可重複讀、讀未提交、串行化

87、spark shuffle 和 hadoop shuffle :https://0x0fff.com/spark-architecture-shuffle/

88、spark 靜態內存和動態內存:https://blog.csdn.net/high2011/article/details/84575442

89、mysql btree 和 hash tree 的區別。btree 需要唯一主鍵,hash tree 適合>= 等,精確匹配,不適合 範圍檢索

90、udf、udtf和 udaf 的區別

91、hive sql 的執行過程

92、client 端,spark sql 的執行過程

93、找出數組中最長的 top10 字符串:https://www.nowcoder.com/questionTerminal/2c81f88ecd5a4cc395b5308a99afbbec

94、Flink 數據處理流程

95、Flink 與 Spark streaming 對比

96、Flink watermark 使用

97、窗口與流的結合

98、Flink 實時告警設計

99、Java:面向對象、容器、多線程、單例

100、Flink:部署、API、狀態、checkpoint、savepoint、watermark、重啓策略、datastream 算子和優化、job和task狀態

101、Spark:原理、部署、優化

102、Kafka:讀寫原理、使用、優化

103、hive的外部表問題

104、spark的函數式編程

105、線性數據結構和數據結構

106、映射,rdd。

107、java的內存溢出和內存泄漏。

108、多線程的實現方法

109、HashMap、ConcurrentMap和 Hashtable 區別

110、Flink Checkpoint 是怎麼做的,作用到算子還是chain

111、Checkpoint失敗了的監控

112、String、StringBuffer和 StringBuilder的區別

113、Kafka存儲流程,爲什麼高吞吐

114、Spark 優化方法舉例

115、keyby 的最大並行度

116、Flink 優化方法

117、kafka isr 機制

118、kafka partition 的 4個狀態

119、kafka 副本的 7個狀態

120、taskmanager 的數量

121、if 和 switch 的性能

122、Hdfs讀寫流程(結合cap理論講)

123、技術選型原則

124、Kafka組件介紹

125、g1和csm區別

126、熟悉的數據結構

127、spark oom處理方法

128、看了哪些源碼

129、Spark task原理

130、解決過的問題

131、Hbase讀寫流程

六、結語

   1、 年底了,一般情況下還是不要離職。最佳離職時間:

  •    春節過後的 1.5 個月內:大量崗位流動 + 項目啓動 + 其他原因;
  •    7月初至9月初: 實習生到期 + 跳槽小高峯 ;   

   2、好好複習,建議

  •    默寫定義和定理
  •    手寫編程題
  •    建議刷題至少 3 遍
  •    模擬面試
  •    請教同行的朋友

 彩蛋: 有小夥伴提出把公司名稱壘上,好吧,應邀填上:

  1. 獵豹移動        -- 四惠
  2. 閃送               -- 上地
  3. 奇安信            --將臺
  4. 永信至誠        -- 永豐科技園
  5. 微鯉科技        -- 望京
  6. 隨行付金科     --中關村地鐵站
  7. 太字流動         -- 中關村軟件園
  8. 啓蒙教育         -- 來廣營科技園
  9. 牧遊科技         -- 西二旗
  10. 光大科技        --西二旗
  11. 優選好生活     -- 四惠
  12. 閱視                -- 四惠
  13. 財天下            -- 西單
  14. 中安星雲        -- 上地 
  15. 京東               -- 亦莊

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章