spark streaming每個 job的數據量 與以下幾個參數有關。
1. 批次間隔時間,例如5秒拉取一次
2. 自己配置的 每個partition 一次最少拉取的條數
假設5秒一個批次 ,kafka 5個partition,配置每個partition最少拉取1000條
那麼最終一個Job中的數據條數 25000條(1000*5*5)(正常情況下)。
如果kafka有數據堆積,比如程序異常down掉,累計了70萬條數據。沒有手動修改偏移量的情況下,那麼第一個job就會有70萬條記錄。
最好自己管理偏移量,比如我存在了Oracle。