llama.cpp備忘

./main -m /mnt/e/Llama3-8B-Chinese-Chat.Q6_K.gguf -n -1 --color -r "User:" --in-prefix " " -i --n-predict 512 --repeat-penalty 1.0 --n_gpu_layers 50 --no-mmap -ins

如果不加 --no-mmap,則會先加載到內存,再複製到顯存,速度非常慢!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章