Spark Troubleshooting

原創

2020-07-03 09:18

控制reduce端緩衝大小以避免OOM

在Shuffle過程，reduce端task並不是等到map端task將其數據全部寫入磁盤後再去拉取，而是map端寫一點數據，reduce端task就會拉取一小部分數據，然後立即進行後面的聚合、算子函數的使用等操作。

reduce端task能夠拉取多少數據，由reduce拉取數據的緩衝區buffer來決定，因爲拉取過來的數據都是先放在buffer中，然後再進行後續的處理，buffer的默認大小爲48MB。
reduce端task會一邊拉取一邊計算，不一定每次都會拉滿48MB的數據，可能大多數時候拉取一部分數據就處理掉了。
雖然說增大reduce端緩衝區大小可以減少拉取次數，提升Shuffle性能，但是有時map端的數據量非常大，寫出的速度非常快，此時reduce端的所有task在拉取的時候，有可能全部達到自己緩衝的最大極

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Spark Troubleshooting

目錄

控制reduce端緩衝大小以避免OOM

[軟件工具百科] 互聯網資源歷史快照歸檔站點與數字圖書館

網易面試：SpringBoot如何開啓虛擬線程？

杭州的 IT 崩盤了麼？

程序員常見的文本查看工具

VS2022 解決方案打不開 .NET Framework 4.0 、 4.5 等老項目

Vue3 運行可以，build 打包發佈報錯，app.config.globalProperties 用法坑

既然測試也要求寫代碼，那乾脆讓開發兼任測試不就好了嗎？

ITSM落地經驗之建設藍圖規劃

PDF 補丁丁 1.0.2 版更新

奇怪！應用的日誌呢？？

hdfs之DataNode

flume之自定義mysql source

spark內核解析6-任務調度機制

JUC之CountDownLatch/CyclicBarrier/Semaphore

spark內核解析8-內存管理

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結