You Only Cache Once:YOCO 基於Decoder-Decoder 的一個新的大語言模型架構

這是微軟再5月剛剛發佈的一篇論文提出了一種解碼器-解碼器架構YOCO,因爲只緩存一次KV對,所以可以大量的節省內存。

以前的模型都是通過緩存先前計算的鍵/值向量,可以在當前生成步驟中重用它們。鍵值(KV)緩存避免了對每個詞元再次編碼的過程,這樣可以大大提高了推理速度。

但是隨着詞元數量的增加,KV緩存佔用了大量GPU內存,使得大型語言模型的推理受到內存限制。所以論文的作者改進了這一架構:

YOCO是爲自迴歸建模而設計的,例如大型語言模型(llm)。所提出的解碼器-解碼器架構有兩部分,即自解碼器和交叉解碼器,如下圖所示

 

https://avoid.overfit.cn/post/90e0bd170644476cbccabb039e7105ae

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章