大語言模型加速推理LLM框架text-generation-inference踩坑實錄

安裝問題

  • 1、儘量使用docker模式享用,能避免很多問題text-generation-inference

  • 2、適配的機型在項目裏沒有說明,但是由於tgi高度依賴flash-attention,所以fa的依賴機型就是tgi的適配gpu機型,H100, A100, RTX 3090, T4, RTX 2080

使用問題

  • 1、屏蔽的內容太多,不知道咋回事,docker-nvidia驅動安裝(適用Centos8)看這個鏈接text-generation-inference https://github.com/929359291/smaple/blob/main/README.md
  • 2、其他使用問題可以留言,我經驗很豐富
  • 3、falcon模型需要轉爲fp16格式,bf16格式框架沒法轉成safe...格式文件,無法加載運行
  • 4、llama模型fp16、bf16兩種格式都可以順利加載運行

性能

  • 實測使用tgi運行falcon-7b模型對比deepspeed框架有5倍的提升
  • 實測使用tgi運行llama-7b模型對比deepspeed框架有2倍的提升
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章