./main -m /mnt/e/Llama3-8B-Chinese-Chat.Q6_K.gguf -n -1 --color -r "User:" --in-prefix " " -i --n-predict 512 --repeat-penalty 1.0 --n_gpu_layers 50 --no-mmap -ins
如果不加 --no-mmap,則會先加載到內存,再複製到顯存,速度非常慢!
./main -m /mnt/e/Llama3-8B-Chinese-Chat.Q6_K.gguf -n -1 --color -r "User:" --in-prefix " " -i --n-predict 512 --repeat-penalty 1.0 --n_gpu_layers 50 --no-mmap -ins
如果不加 --no-mmap,則會先加載到內存,再複製到顯存,速度非常慢!