Command-R+, Mixtral-8x22b和Llama 3 70b都在最近的幾周內發佈了,這些模型是巨大的。它們都有超過700億個參數:
Command-R+: 104B參數
Mixtral-8x22b:具有141B參數的混合專家(MoE)模型
Llama 370b: 70.6B參數
你能在電腦上微調和運行這些模型嗎?
在本文中,我將介紹如何計算這些模型用於推理和微調的最小內存。這種方法適用於任何的llm,並且精確的計算內存總消耗。
https://avoid.overfit.cn/post/0046a7ef3a47406e9ed98d4ce947a14d