hive 、spark 、flink之想一想

hive

1:hive是怎麼產生的?

2:hive的框架是怎麼樣的?

3:hive 執行流程是什麼?

4:hive sql是如何把sql語句一步一步到最後執行的?

5:hive sql任務常用參數調優做過什麼?

spark

6:spark 是怎麼產生的?

7:spark 框架是怎麼樣的?

8: spark的DAG是什麼?

9:spark中的app,job,stage,task是什麼?有什麼好處?

10:spark的RDD是什麼?與dataframe有什麼區別?

11:spark 執行流程是什麼?

12:spark sql是如何把sql語句一步一步到最後執行的?

13:spark 與mapreduce的區別是什麼?

14: spark的反壓原理是什麼?主動還是被動?

flink

14:flink是怎麼產生的?

15:flink的框架是怎麼樣的?

16:flink 的內存模型說一說?

17:flink的cp ,sp說一說原理,有什麼區別?你們是怎麼設置cp的相關參數?

18:flink的四個圖是什麼?分別都是什麼環節對應什麼圖?

19:flink反壓機制,你是如何理解的?你是如何定位、並有什麼方案解決?與spark的反壓有什麼區別?

20:flink的barrier對齊和非對齊是怎麼理解的?

21:flink的精準一次和至少一次是怎麼理解的?

22:flink任務消費或者寫入kafka時,並行度不一致有什麼問題?

23:flink如何保證數據一致性?

24:flink對於kafka新增分區時,消費有什麼問題嗎?

25:flink消費kafka的offset是怎麼維護的?自動提交?

26:flink任務如何設置TM,JM的並行度?

27:flink任務做過什麼調優?

28:flink任務大狀態時做過什麼優化?

29:你們用flink做過實時數倉嗎?你們的上下游的環境都是什麼?全鏈路時效是多少?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章