前言
近期,Meta 宣佈大語言模型 Llama2 開源,包含7B、13B、70B不同尺寸,分別對應70億、130億、700億參數量,並在每個規格下都有專門適配對話場景的優化模型Llama-2-Chat。Llama2 可免費用於研究場景和商業用途(但月活超過7億以上的企業需要申請),對企業和開發者來說,提供了大模型研究的最新利器。
目前,Llama-2-Chat在大多數評測指標上超過了其他開源對話模型,並和一些熱門閉源模型(ChatGPT、PaLM)相差不大。阿里雲機器學習平臺PAI第一時間針對 Llama2 系列模型進行適配,推出全量微調、Lora微調、推理服務等場景最佳實踐,助力AI開發者快速開箱。以下我們將分別展示具體使用步驟。
最佳實踐:Llama2 快速部署 WebUI
- 本實踐將採用阿里雲機器學習平臺PAI-EAS 模塊針對 Llama-2-13B-chat 進行部署。PAI-EAS是模型在線服務平臺,支持將模型一鍵部署爲在線推理服務或AI-Web應用,具備彈性擴縮的特點,適合需求高性價比模型服務的開發者。
一、服務部署
1、進入PAI-EAS模型在線服務頁面。
-
- 登錄PAI控制檯 https://pai.console.aliyun.com/
- 在左側導航欄單擊工作空間列表,在工作空間列表頁面中單擊待操作的工作空間名稱,進入對應工作空間內。
- 在工作空間頁面的左側導航欄選擇模型部署>模型在線服務(EAS),進入PAI EAS模型在線服務頁面。
2、在PAI EAS模型在線服務頁面,單擊部署服務。
3、在部署服務頁面,配置以下關鍵參數。
參數 | 描述 |
服務名稱 | 自定義服務名稱。本案例使用的示例值爲:chatllm_llama2_13b。 |
部署方式 | 選擇鏡像部署AI-Web應用。 |
鏡像選擇 | 在PAI平臺鏡像列表中選擇chat-llm-webui,鏡像版本選擇1.0。由於版本迭代迅速,部署時鏡像版本選擇最高版本即可。 |
運行命令 | 服務運行命令: 1.如果使用13b的模型進行部署:python webui/webui_server.py --listen --port=8000 --model-path=meta-llama/Llama-2-13b-chat-hf --precision=fp16 2.如果使用7b的模型進行部署:python webui/webui_server.py --listen --port=8000 --model-path=meta-llama/Llama-2-7b-chat-hf 端口號輸入:8000 |
資源組種類 | 選擇公共資源組。 |
資源配置方法 | 選擇常規資源配置。 |
資源配置選擇 | 必須選擇GPU類型,實例規格推薦使用ecs.gn6e-c12g1.3xlarge。13b的模型務必跑在gn6e及更高規格的機型上。7b的模型可以跑在A10/GU30機型上。 |
額外系統盤 | 選擇50GB |
4、單擊部署,等待一段時間即可完成模型部署。
二、啓動WebUI進行模型推理
1、單擊目標服務的服務方式列下的查看Web應用。
2、在WebUI頁面,進行模型推理驗證。
在對話框下方的輸入界面輸入對話內容,例如”請提供一個理財學習計劃”,點擊發送,即可開始對話。
What's More
- 本文主要展示了基於阿里雲機器學習平臺PAI快速進行Llama2微調及部署工作的實踐,主要是面向7B和13B尺寸的。後續,我們將展示如何基於PAI進行70B尺寸的 Llama-2-70B 的微調及部署工作,敬請期待。
- 上述實驗中,【最佳實踐三:Llama2 快速部署 WebUI】支持免費試用機型運行,歡迎點擊【閱讀原文】前往阿里雲使用中心領取“PAI-EAS”免費試用後前往PAI控制檯體驗。
參考資料:
- Llama2: Inside the Model https://ai.meta.com/llama/#inside-the-model
- Llama 2 Community License Agreement https://ai.meta.com/resources/models-and-libraries/llama-downloads/
- HuggingFace Open LLM Leaderboard https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
- 阿里雲機器學習平臺PAI:https://www.aliyun.com/product/bigdata/learn
點擊立即免費試用雲產品 開啓雲上實踐之旅!
本文爲阿里雲原創內容,未經允許不得轉載。