cuda執行配置對性能的影響

        cuda核函數在運行時,使用<<<grid, block>>>語法設置執行線程配置,grid 和block的大小也影響並行程序的性能。

        一般情況下,grid要大於SM的數目,這樣才能讓多處理器不至於空閒,同時也要考慮負載均衡的問題,grid大小必須是sm 數目的整數倍,否則計算到最後的時候,有一些SM可能會空閒。grid大小至少是SM的3倍,如果有塊內同步的話,grid要大於SM的4倍以上。一般而言,block大小要是線程束大小的4倍以上,此時基本上可隱藏訪存延遲。如果數據量比較小的話,grid大小和block大小可能相互牽制,此時要綜合考慮。在數據量比較大的時候,只要考慮block大小就行了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章