安装问题
-
1、尽量使用docker模式享用,能避免很多问题text-generation-inference
-
2、适配的机型在项目里没有说明,但是由于tgi高度依赖flash-attention,所以fa的依赖机型就是tgi的适配gpu机型,H100, A100, RTX 3090, T4, RTX 2080
使用问题
- 1、屏蔽的内容太多,不知道咋回事,docker-nvidia驱动安装(适用Centos8)看这个链接text-generation-inference https://github.com/929359291/smaple/blob/main/README.md
- 2、其他使用问题可以留言,我经验很丰富
- 3、falcon模型需要转为fp16格式,bf16格式框架没法转成safe...格式文件,无法加载运行
- 4、llama模型fp16、bf16两种格式都可以顺利加载运行
性能
- 实测使用tgi运行falcon-7b模型对比deepspeed框架有5倍的提升
- 实测使用tgi运行llama-7b模型对比deepspeed框架有2倍的提升