BurstAttention:可對非常長的序列進行高效的分佈式注意力計算

提高llm中注意力機制效率的努力主要集中在兩種方法上:優化單設備計算和存儲能力,如FlashAttention,以及利用多設備的分佈式系統,如RingAttention。

FlashAttention通過使用靜態隨機存儲器(SRAM)來存儲中間狀態,而不是依賴於高帶寬存儲器(HBM)來提高注意力計算速度。

而RingAttention通過將長序列劃分爲子序列並將其分佈在多個設備上進行並行處理來處理長序列。

雖然它們都提高了處理速度和效率,如果將它們組合起來使用是否可以有更大的提高呢?理論上是這樣,但是在分佈式環境中直接組合這兩種方法無法充分利用它們的優勢,並且存在兼容性問題。

而最新的研究BurstAttention可以將2者結合,作爲RingAttention和FlashAttention之間的橋樑。

BurstAttention是一個創新的框架,它優化了跨設備的計算和通信,增強了內存使用,最小化了通信開銷,提高了緩存效率。

 

https://avoid.overfit.cn/post/5aacdef85b104ff0a9faea9ad84f2a95

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章