大语言模型加速推理LLM框架text-generation-inference踩坑实录

安装问题

  • 1、尽量使用docker模式享用,能避免很多问题text-generation-inference

  • 2、适配的机型在项目里没有说明,但是由于tgi高度依赖flash-attention,所以fa的依赖机型就是tgi的适配gpu机型,H100, A100, RTX 3090, T4, RTX 2080

使用问题

  • 1、屏蔽的内容太多,不知道咋回事,docker-nvidia驱动安装(适用Centos8)看这个链接text-generation-inference https://github.com/929359291/smaple/blob/main/README.md
  • 2、其他使用问题可以留言,我经验很丰富
  • 3、falcon模型需要转为fp16格式,bf16格式框架没法转成safe...格式文件,无法加载运行
  • 4、llama模型fp16、bf16两种格式都可以顺利加载运行

性能

  • 实测使用tgi运行falcon-7b模型对比deepspeed框架有5倍的提升
  • 实测使用tgi运行llama-7b模型对比deepspeed框架有2倍的提升
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章