大语言模型加速推理LLM框架text-generation-inference踩坑实录

原創

2023-06-29 12:05

安装问题

1、尽量使用docker模式享用，能避免很多问题text-generation-inference
2、适配的机型在项目里没有说明，但是由于tgi高度依赖flash-attention，所以fa的依赖机型就是tgi的适配gpu机型，H100, A100, RTX 3090, T4, RTX 2080

使用问题

1、屏蔽的内容太多，不知道咋回事，docker-nvidia驱动安装（适用Centos8）看这个链接text-generation-inference https://github.com/929359291/smaple/blob/main/README.md
2、其他使用问题可以留言，我经验很丰富
3、falcon模型需要转为fp16格式，bf16格式框架没法转成safe...格式文件，无法加载运行
4、llama模型fp16、bf16两种格式都可以顺利加载运行

性能

实测使用tgi运行falcon-7b模型对比deepspeed框架有5倍的提升
实测使用tgi运行llama-7b模型对比deepspeed框架有2倍的提升

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

MySQL 通过 systemd 启动时 hang 住了……

mysqld：哥，我起不來了…… 作者：賁紹華，愛可生研發中心工程師，負責項目的需求與維護工作。其他身份：柯基鏟屎官。愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。本文約 2100 字，預計閱讀需要 7

2024-05-10 00:35:39

ollama使用

ollama 僅支持。gguf的格式其他格式需要llama.cpp 轉換 curl https://ollama.ai/install.sh | sh ollama --version ollama pull llama2-chin

2024-05-01 00:42:55

什么情况下 MySQL 连查询都能被阻塞？

MySQL 的鎖也是不少，在哪種情況下會連查詢都能被阻塞？這是一個有意思的問題。工作中，很多開發和 DBA 可能接觸較多的鎖也就行鎖了。對於行鎖，阻塞寫能理解，阻塞讀實在是想不到。能阻塞讀的那肯定是顆粒度更大的鎖了，比如表級別的。作者

2024-05-08 23:28:09

什么？ 20分钟，构建你自己的LLaMA3应用程序！

4月19日，Meta發佈了最新的大語言模型LLaMA3，具體包括一個8B模型和一個70B模型，上下文長度支持8K，被譽爲史上最強開源大語言模型，開源社區的“重磅炸彈”，效果直指GTP4。在諸多評測任務上，LLaMA3都有非常炸裂的效果。8

京東雲開發者

2024-05-08 23:24:14

git 将其中一个文件恢复到之前的版本

要將Git中的一個文件恢復到之前的版本，你可以使用git checkout命令結合特定的提交哈希值（commit hash）或引用（如HEAD~1）來檢出該文件的特定版本。以下是如何操作的步驟：查看文件的歷史：首先，你可以使用gi

2024-05-08 12:43:22

MySQL VARCHAR 最佳长度评估实践

你的 VARCHAR 長度合適麼？作者：官永強，愛可生 DBA 團隊成員，擅長 MySQL 運維方面的技能。熱愛學習新知識，亦是個愛打遊戲的宅男。作者：李富強，愛可生 DBA 團隊成員，熟悉 MySQL，TiDB，OceanBase

2024-05-07 23:20:50

数据库索引算法的威力：B-Tree 与 Hash 索引

數據庫索引是優化任何數據庫系統性能的關鍵組成部分。如果沒有有效的索引，您的數據庫查詢可能會變得緩慢且低效，從而導致用戶體驗不佳並降低生產力。在這篇文章中，我們將探討創建和使用數據庫索引的一些最佳實踐。作者：The Java Trail

2024-05-07 23:20:49

一键自动化博客发布工具,用过的人都说好(oschina篇)

oschina和segmentfault一樣，界面非常的清爽。界面上除了必須的標題,內容之外，還有文章專輯和推廣專區這幾個選項。一起來看看在blog-auto-publishing-tools中，是如何實現自動發佈到oschina的吧。

2024-05-07 21:30:39

Smart-doc赋能JMeter性能压测实践

1、前言在軟件開發的生命週期中，API文檔的自動生成以及接口的性能測試是提升開發效率和確保產品質量的關鍵步驟。隨着smart-doc工具在3.0.1版本後新增了生成JMeter性能壓測腳本的能力，開發者可以更加便捷地完成這兩項任務。本文將

2024-05-07 12:04:39

MySQL 社区经理：MySQL 8.4 InnoDB 参数默认值为什么要这么改？

MySQL 8.4 LTS 版本，我們一共修改了 20 個 InnoDB 變量的默認值。作者：Frederic Descamps，EMEA 和亞太地區的 MySQL 社區經理。於 2016 年 5 月加入 MySQL 社區團隊。擔任開源

2024-05-06 23:20:21

[oeasy]python0015_键盘改造_将esc和capslock对调_hjkl_移动_双手正位

鍵盤改造 🥋 回憶上次內容上次練習了複製粘貼按鍵作用 <kb

2024-05-06 11:45:36

DataGear 5.0.0 新特性之图表追加更新模式

DataGear 企業版 1.1.0 已發佈！ http://datagear.tech/pro/ DataGear在新發布的 5.0.0 版本中，新增了圖表追加更新模式支持，包括dgUpdateAppendMode圖表選項，以及chart

2024-04-28 21:42:27

CVE复现之老洞新探（CVE-2021-3156）

環境搭建直接拉取合適的docker docker 環境： https://hub.docker.com/r/chenaotian/cve-2021-3156 下載glibc-2.27源碼和sudo-1.8.21源碼漏洞分析

2024-05-08 22:52:37

开发者分享：利用 EMQX Cloud 与 ESP32 微控制器实现智能液冷散热系统

作者：陶德坤，EMQX Cloud 開發者。作爲一名後端開發人員，我經常需要同時運行多個 Jetbrains IDE （集成開發環境），所以經常面臨筆記本電腦過熱問題。我曾嘗試過各種散熱方法，從傳統的風扇到更先進的半導體冷卻系統，但這些

2024-05-07 21:55:53

Centos7 使用 Docker 安装 owncloud

centos7 安裝 docker 安裝教程可參考：centos7 安裝 docker 開始安裝owncloud 1. 創建一個新的項目目錄 mkdir owncloud-docker-server cd owncloud-doc

2024-05-06 23:24:42

24小時熱門文章

HTTP URL 详解

最新文章

最新評論文章