如何準確的估計llm推理和微調的內存消耗

Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的幾周內發佈了,這些模型是巨大的。它們都有超過700億個參數:

Command-R+: 104B參數

Mixtral-8x22b:具有141B參數的混合專家(MoE)模型

Llama 370b: 70.6B參數

你能在電腦上微調和運行這些模型嗎?

在本文中,我將介紹如何計算這些模型用於推理和微調的最小內存。這種方法適用於任何的llm,並且精確的計算內存總消耗。

 

https://avoid.overfit.cn/post/0046a7ef3a47406e9ed98d4ce947a14d

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章