便捷、快速、穩定、高性能!以 GPU 實例演示 Alibaba Cloud Linux 3 對 AI 生態的支持

日前,Alibaba Cloud Linux 3 爲使 AI 開發體驗更高效,提供了一些優化升級,本文爲“Alibaba Cloud Linux 3 AI 能力介紹”系列文章預告篇,以 GPU 實例爲例,爲大家演示 Alibaba Cloud Linux 3 對 AI 生態的支持。接下來還將陸續發佈 2 篇系列文章,主要介紹基於 Alinux 的雲市場鏡像爲用戶提供開箱即用的 AI 基礎軟件環境,以及基於 AMD 介紹 AI 能力差異化。敬請期待。更多 Alibaba Cloud Linux 3 信息可前往官網查看:https://www.aliyun.com/product/ecs/alinux

當在 Linux 操作系統上開發人工智能(AI)應用程序時,研發人員可能會遇到一些挑戰,這些挑戰包括但不限於:

1. GPU 驅動程序:爲了在 Linux 系統上使用 NVIDIA GPU 進行訓練或推理,需要安裝和配置正確的 NVIDIA GPU 驅動程序。由於不同的操作系統和 GPU 型號可能需要不同的驅動程序,因此可能需要一些額外的工作。

2. AI 框架編譯:在 Linux 系統上使用 AI 框架進行編程時,需要安裝和配置適當的編譯器和其他依賴項。這些框架通常需要進行編譯,因此需要確保正確安裝了編譯器和其他依賴項,並正確配置編譯器。

3. 軟件兼容性:Linux 操作系統支持許多不同的軟件和工具,但不同版本和發行版之間可能存在兼容性問題。這可能會導致某些程序無法正常運行或者在某些操作系統上不可用。因此,研發人員需要了解其工作環境的軟件兼容性,並進行必要的配置和修改。

4. 性能問題:AI 軟件棧是一個異常複雜的系統,通常需要對不同型號的 CPU 和 GPU 進行專業的優化,才能發揮其最佳性能。軟硬件協同的性能優化對於 AI 軟件棧來說是一個具有挑戰性的任務,需要擁有高超的技術水平和專業知識。

阿里雲第三代雲服務器操作系統 Alibaba Cloud Linux 3(以下簡稱“Alinux 3”)是基於龍蜥操作系統 Anolis OS 研發的商業版操作系統,爲開發人員提供了強大的 AI 開發平臺,通過支持龍蜥生態 repo(epao),Alinux 3 實現了對主流的 nvidia GPU 和 CUDA 生態的全面支持,使得 AI 開發更加便捷高效。此外,Alinux 3 還支持主流的 AI 框架 TensorFlow/PyTorch,intel/amd 等不同 CPU 平臺對 AI 的優化,還將引入了 modelscope、huggingface 等大模型 SDK 的原生支持,爲開發人員提供了豐富的資源和工具。這些支持,使得 Alinux 3 成爲了一個完善的 AI 開發平臺,解決 AI 開發人員的痛點問題,不用一直折騰環境,讓 AI 開發體驗更容易更高效。

Alinux 3 爲開發人員提供了強大的 AI 開發平臺。爲了解決以上研發人員可能遇到的挑戰,Alinux 3 提供了以下幾點優化升級:

1. Alinux 3 通過引入龍蜥生態軟件倉庫(epao),支持開發者一鍵安裝主流 NVIDIA GPU 驅動以及 CUDA 加速庫,節省了開發者需要匹配驅動版本以及手動安裝的時間。

2. epao 倉庫中還提供了對主流 AI 框架 Tensorflow/PyTorch 的版本支持,同時安裝過程中會自動解決 AI 框架的依賴問題,開發者無需進行額外編譯,即可搭配系統 Python 環境進行快速開發。

3. Alinux 3 的 AI 能力在提供給開發者之前,所有組件均經過兼容性測試,開發者可以一鍵安裝對應的 AI 能力,免去了環境配置中可能出現的對系統依賴項的修改,提高了使用過程中的穩定性。

4. Alinux 3 針對 Intel/AMD 等不同平臺的 CPU 進行了 AI 專門優化,更好地釋放硬件的全部性能

5. 爲了更快的適應 AIGC 產業的快速迭代,Alinux 3 還將引入對 ModelScope、HuggingFace 等大模型 SDK 的原生支持,爲開發人員提供了豐富的資源和工具。

在多維度的優化加持下,使得 Alinux 3 成爲一個完善的 AI 開發平臺,解決了 AI 開發人員的痛點問題,讓 AI 開發體驗更容易更高效。

以下以阿里雲 GPU 實例爲例子,演示 Alinux 3 對 AI 生態的支持:

1、購買 GPU 實例

2、選擇 Alinux 3 鏡像

3、安裝 epao repo 配置

dnf install -y anolis-epao-release

4、安裝nvidia GPU driver

安裝 nvidia driver 之前先保證 kernel-devel 已安裝,確保 nvidia driver 安裝成功。

dnf install -y kernel-devel-$(uname-r)

安裝 nvidia driver:

dnf install -y nvidia-driver nvidia-driver-cuda

安裝完成後可以通過 nvidia-smi 命令查看 GPU 設備狀態。

5、安裝 cuda 生態庫

dnf install -y cuda

6、 安裝 AI 框架 tensorflow/pytorch

當前提供 CPU 版的 tensorflow/pytorch,未來將支持 GPU 版的 AI 框架。

dnf install tensorflow -y dnf install pytorch -y

安裝完成後可通過簡單的命令查看是否安裝成功:

7、部署模型

使用 Alinux 3 對 AI 的生態支持,可以部署 GPT-2 Large 模型來進行本文續寫任務。

安裝 Git 以及 Git LFS 方便後續下載模型。

dnf install -y git git-lfs wget

更新 pip,便於後續部署 Python 環境。

python -m pip install --upgrade pip

啓用 Git LFS 的支持。

git lfs install

下載 write-with-transformer 項目源碼,以及預訓練模型。write-with-transformer 項目是一個網頁寫作 APP,可以使用 GPT-2 大模型對寫作內容進行續寫。

git clone https://huggingface.co/spaces/merve/write-with-transformer
GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/gpt2-large
wget https://huggingface.co/gpt2-large/resolve/main/pytorch_model.bin -O gpt2-large/pytorch_model.bin

安裝 write-with-transformer 所需要的依賴環境。

cd ~/write-with-transformer
pip install --ignore-installed pyyaml==5.1
pip install -r requirements.txt

環境部署完畢後,就可以運行網頁版 APP,來體驗 GPT-2 幫助完成寫作的樂趣。目前 GPT-2 只支持使用英文進行文本生成。

cd ~/write-with-transformer
sed -i 's?"gpt2-large"?"../gpt2-large"?g' app.py
sed -i '34s/10/32/;34s/30/120/' app.py
streamlit run app.py --server.port 7860

回顯信息出現 External URL: http://<ECS EXTERNAL IP>:7860 表明網頁版 APP 運行成功。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章