1.前言
從EMR-3.21.0版本開始,EMR正式發佈了Spark Streaming SQL功能,支持使用Spark SQL進行流式數據處理。經過兩個版本的迭代,不少用戶反饋當使用SQL進行流式作業開發時,查詢結果正確性的調試過程比較麻煩。當前,我們需要完成用戶真實的數據流開發,才能在結果存儲系統中查看結果是否正確。有些數據存儲系統又不方便查看,例如Kafka。這裏簡單羅列幾點不便於調試的問題:
- 無法在控制檯輸出中直觀看到SQL的執行結果,傳統的需要在輸出存儲系統查看。
- 數據是變化的:包括輸入數據和輸出結果都是不斷變化的,無法方便看到每個批次的執行結果。
- 每個批次執行的metrics也不方便查看,傳統的需要在日誌中查找。
除此外,還有一些高級功能也可以考慮到調試工具中,例如:
- 脫離真實數據源的數據模擬功能。
- 數據採樣功能。
本文將介紹EMR提