終於到週五了,打開電腦查看集羣運行情況,
某個workflow原來執行完只需要1h,現在執行時間翻倍?
應該是spark重試機制的原因,最終結果還是執行成功了
workflow 歷史執行時間 4:00-5:14
workflow2 歷史執行時間 5:00-5:56
根據Start Time顯示workflow在4:21開始執行,5:00被workflow2卡死,
在workflow2 釋放資源後,5:52又重新啓動並執行成功的。
於是調整workflow2佔用資源,使其不能完全佔用集羣大量資源!