spark streaming每次從kafka拉取多少數據

spark streaming每個 job的數據量  與以下幾個參數有關。

1. 批次間隔時間,例如5秒拉取一次

2. 自己配置的 每個partition 一次最少拉取的條數

假設5秒一個批次 ,kafka 5個partition,配置每個partition最少拉取1000條

那麼最終一個Job中的數據條數 25000條(1000*5*5)(正常情況下)。

如果kafka有數據堆積,比如程序異常down掉,累計了70萬條數據。沒有手動修改偏移量的情況下,那麼第一個job就會有70萬條記錄。

最好自己管理偏移量,比如我存在了Oracle。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章