推測解碼:在不降低準確性的情況下將LLM推理速度提高2 - 3倍

在本篇文章我們將詳細討論推測解碼,這是一種可以將LLM推理速度提高約2 - 3倍而不降低任何準確性的方法。我們還將會介紹推測解碼代碼實現,並看看它與原始transformer 實現相比到底能快多少。

推測解碼是一種“先推測後驗證” (Draft-then-Verify) 的解碼算法,涉及並行運行兩個模型,可與i將語言模型推理的速度有望提高2-3倍。

 

https://avoid.overfit.cn/post/5a5ec75eec9f48a685c2686b0009e8fc

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章