一分鐘部署 Llama3 中文大模型，沒別的，就是快

原創

2024-04-29 21:14

前段時間百度創始人李彥宏信誓旦旦地說開源大模型會越來越落後，閉源模型會持續領先。隨後小扎同學就給了他當頭一棒，向他展示了什麼叫做頂級開源大模型。

美國當地時間4月18日，Meta 在官網上發佈了兩款開源大模型，參數分別達到 80 億 (8B) 和 700 億 (70B)，是目前同體量下性能最好的開源模型，而且直接逼近了一線頂級商業模型 GPT-4 和 Claude3。

與此同時，還有一個 400B 的超大杯模型還在路上，估計很快就會放出來，到時候就真的碾壓了，某些聲稱閉源遙遙領先的哥們就等着哭吧 😢

雖然纔過去短短几日，Huggingface 上已經湧現了非常多的 Llama3 中文微調版，令人眼花繚亂：

想不想自己也部署一個 Llama3 中文版？

對於沒有 GPU 的同學，我們可以使用微調的量化模型來使用 CPU 運行。不同的量化方法會帶來不同的性能損失：

8bit 量化沒有性能損失。
AWQ 4bit 量化對 8B 模型來說有 2%性能損失，對 70B 模型只有 0.05%性能損失。
參數越大的模型，低 bit 量化損失越低。AWQ 3bit 70B 也只有 2.7%性能損失，完全可接受。

綜合來說，如果追求無任何性能損失，8B 模型用 8bit 量化，70B 模型用 4bit 量化。

如果能接受 2-3%損失，8B 模型用 4bit 量化，70B 模型用 3bit 量化。

目前效果最好的中文微調版是 HuggingFace 社區的 zhouzr/Llama3-8B-Chinese-Chat-GGUF 模型，該模型採用 firefly-train-1.1M、moss-003-sft-data、school_math_0.25M、弱智吧（沒錯，就是那個弱智吧~）數據集，使模型能夠使用中文回答用戶的提問。

下面我們來看看如何在三分鐘內快速部署這個模型吧。

直接在瀏覽器中打開以下鏈接：

https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dllama3-8b-chinese

然後點擊右上角的「去 Sealos 部署」。

如果您是第一次使用 Sealos，則需要註冊登錄 Sealos 公有云賬號，登錄之後會立即跳轉到模板的部署頁面。

跳轉進來之後，點擊右上角的「部署應用」開始部署，部署完成後，直接點擊應用的「詳情」進入該應用的詳情頁面。

等待實例狀態變成 running 之後，Llama3 中文版模型就部署好了，默認會提供一個與 OpenAI 官方接口對齊的 API，你可以打開終端直接通過 API 來測試。我框出來的部分就是該模型 API 在 Sealos 集羣的內網地址，你可以點擊它直接複製。

爲了更直觀地使用，我們可以選擇再部署一個 WebUI，Lobe Chat、ChatGPT Next Web 這些都可以使用，本文以 Lobe Chat 爲例，直接在瀏覽器打開以下鏈接：

https://bja.sealos.run/?openapp=system-template%3FtemplateName%3Dlobe-chat

需要填寫三個變量的值，如下圖所示：

OPENAI_PROXY_URL 的值就是我們剛剛複製的內網 API 接口地址，記得要在末尾加上 /v1。
OPENAI_MODEL_LIST 的值是 +Llama3-8B-Chinese-Chat.q4_k_m.GGUF。
OPENAI_API_KEY 的值隨便瞎寫一個就行。

然後點擊右上角的「部署應用」，部署完成後，直接點擊應用的「詳情」進入該應用的詳情頁面，等待實例狀態變成 running 之後，點擊外網地址即可打開 Lobe Chat 的可視化界面。

進來之後，先點擊頂部的 gpt-3.5-turbo：

在彈出來的下拉框中點擊「Llama3-8B-Chinese-Chat.q4_k_m.GGUF」，切換到該模型。

現在就可以和模型愉快地對話了，先來個弱智吧的問題嚐嚐鹹淡：

再來試試 GPT-4 專用測試問題：

數學能力測試：

？？？

這個應用模板默認只給了 8核 CPU，而且都沒跑滿，效果肯定還是不如 GPU 的。有條件的同學可以直接用 GPU 部署 70B 的模型。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一分鐘部署 Llama3 中文大模型，沒別的，就是快

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

前端面試題 - Node JS與V8是什麼關係？

前端面試題 - V8是什麼？

DevExpress WinForms中文教程 - HTML & CSS支持的實戰應用(一)

Visual C++界面開發組件Xtreme Toolkit Pro v24測試版發佈——完全支持SVG

有隙可乘 - Android 序列化漏洞分析實戰

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結