安裝問題
-
1、儘量使用docker模式享用,能避免很多問題text-generation-inference
-
2、適配的機型在項目裏沒有說明,但是由於tgi高度依賴flash-attention,所以fa的依賴機型就是tgi的適配gpu機型,H100, A100, RTX 3090, T4, RTX 2080
使用問題
- 1、屏蔽的內容太多,不知道咋回事,docker-nvidia驅動安裝(適用Centos8)看這個鏈接text-generation-inference https://github.com/929359291/smaple/blob/main/README.md
- 2、其他使用問題可以留言,我經驗很豐富
- 3、falcon模型需要轉爲fp16格式,bf16格式框架沒法轉成safe...格式文件,無法加載運行
- 4、llama模型fp16、bf16兩種格式都可以順利加載運行
性能
- 實測使用tgi運行falcon-7b模型對比deepspeed框架有5倍的提升
- 實測使用tgi運行llama-7b模型對比deepspeed框架有2倍的提升