EMR上如何進行流式SQL調試

1.前言

從EMR-3.21.0版本開始,EMR正式發佈了Spark Streaming SQL功能,支持使用Spark SQL進行流式數據處理。經過兩個版本的迭代,不少用戶反饋當使用SQL進行流式作業開發時,查詢結果正確性的調試過程比較麻煩。當前,我們需要完成用戶真實的數據流開發,才能在結果存儲系統中查看結果是否正確。有些數據存儲系統又不方便查看,例如Kafka。這裏簡單羅列幾點不便於調試的問題:

  • 無法在控制檯輸出中直觀看到SQL的執行結果,傳統的需要在輸出存儲系統查看。
  • 數據是變化的:包括輸入數據和輸出結果都是不斷變化的,無法方便看到每個批次的執行結果。
  • 每個批次執行的metrics也不方便查看,傳統的需要在日誌中查找。

除此外,還有一些高級功能也可以考慮到調試工具中,例如:

  • 脫離真實數據源的數據模擬功能。
  • 數據採樣功能。

本文將介紹EMR提

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章