多場景 PAI-Diffusion 中文模型家族大升級，12個模型、2個工具全部開源

概述

在過去幾年中，隨着AI生成內容（AI Generated Content，AIGC）的快速發展，Stable Diffusion模型在該領域嶄露頭角。阿里雲機器學習PAI團隊爲推動這一領域的發展，參考了Stable Diffusion的模型結構，結合中文語言的特點，通過大量對模型預訓練數據的處理和過濾，以及訓練過程的優化，提出了PAI-Diffusion中文文圖生成模型，實現了圖像生成質量的大幅提升和風格多樣化（看這裏）。PAI-Diffusion模型的Pipeline不僅包含了標準的Diffusion Model，還集成了中文CLIP跨模態對齊模型，使得模型能夠生成符合中文文本描述的各種場景下的高清大圖（看這裏）。此外，我們也推出了PAI的自研Prompt美化器BeautifulPrompt，賦能Stable Diffusion類應用一鍵出美圖（看這裏）。

我們在這次的工作中，將PAI-Diffusion中文模型家族擴展到多種應用場景，支持文生圖、文圖生圖、圖像修復、LoRA、ControlNet等多種常見功能。爲了更好地與開源社區互動，我們將12個PAI-Diffusion中文模型（包括基礎模型、LoRA、ControlNet等）全部開源，並支持用戶自由下載和使用，與開發者一起共同推動AI生成內容技術的發展，創造出更有創意和影響力的作品。此外，PAI-Diffusion中文模型對應兩個推理工具也在開源社區推出。其中，Chinese Diffusion WebUI作爲Stable Diffusion WebUI的插件與PAI-EAS無縫兼容，支持5分鐘內一鍵在PAI-EAS拉起中文AIGC應用；Diffusers-API也完美支持中文模型的快速部署和推理。

在下文中，我們詳細介紹PAI-Diffusion中文模型家族及其工具Chinese Diffusion WebUI和Diffuser-API的使用。

多場景的PAI-Diffusion中文模型家族

我們利用海量中文圖文對數據，訓練了如下12個模型，包括基礎模型、LoRA、ControlNet等，模型列表如下：

模型名	類別	使用場景
pai-diffusion-general-large-zh	基礎模型	中文文圖生成通用模型，默認支持生成圖像分辨率爲512*512
pai-diffusion-general-large-zh-controlnet-canny	ControlNet	上述模型用於邊緣圖的ControlNet
pai-diffusion-general-large-zh-controlnet-depth	ControlNet	上述模型用於深度圖的ControlNet
pai-diffusion-general-xlarge-zh	基礎模型	中文文圖生成通用模型（更大分辨率），默認支持生成圖像分辨率爲768*768
pai-diffusion-artist-large-zh	基礎模型	中文文圖生成藝術模型，默認支持生成圖像分辨率爲512*512
pai-diffusion-artist-large-zh-controlnet-canny	ControlNet	上述模型用於邊緣圖的ControlNet
pai-diffusion-artist-large-zh-controlnet-depth	ControlNet	上述模型用於深度圖的ControlNet
pai-diffusion-artist-large-zh-lora-poem	LoRA	上述模型用於中文古詩畫的LoRA
pai-diffusion-artist-large-zh-lora-25d	LoRA	上述模型用於2.5D插畫的LoRA
pai-diffusion-artist-xlarge-zh	基礎模型	中文文圖生成藝術模型（更大分辨率），默認支持生成圖像分辨率爲768*768
pai-diffusion-food-large-zh	基礎模型	中文文圖生成美食模型，默認支持生成圖像分辨率爲768*768
pai-diffusion-anime-large-zh	基礎模型	中文文圖生成二次元模型，默認支持生成圖像分辨率爲768*512

上述所有模型都可以在我們的Hugging Face Space進行下載，我們的模型也可以通過ModelScope進行調用。模型生成的效果如下所示：

下面給出了三個PAI-Diffusion中文模型的應用場景：

應用場景一：輸入草稿圖和對應的Prompt，生成精細的藝術圖畫。

應用場景二：污染破損的古詩詞繪畫圖像的修復，即image in-painting。

應用場景三：爲國風遊戲繪製中國古代室內場景。

爲了儘可能提升模型輸出圖像的質量，我們蒐集海量開源的圖文對數據集，包括大規模中文跨模態預訓練數據集WuKong、大規模多語言多模態數據集LAION-5B等。此外，我們也蒐集了大量不同領域、不同場景的數據集，用於擴展PAI-Diffusion中文模型家族的應用場景。我們針對圖像和文本進行了多種清洗方式，篩選掉低質量數據。具體的數據處理方式包括NSFW（Not Safe From Work）數據過濾、水印數據去除，我們也使用CLIP分數和美觀值分數評分，過濾CLIP分數和美觀值分數較低的數據，保證生成圖像的語義一致性和質量。爲了適配中文語義場景，我們的CLIP Text Encoder採用EasyNLP自研的中文CLIP模型（https://github.com/alibaba/EasyNLP）進行建模，使得模型更懂中文語言。

PAI-Diffusion中文模型部署工具

本節詳細介紹PAI-Diffusion中文模型對應的兩個開源工具。Chinese Diffusion WebUI作爲插件與PAI-EAS無縫兼容，支持5分鐘內一鍵拉起中文AIGC應用；Diffusers-API通過API形式支持中文模型的快速部署和推理。

Chinese Diffusion WebUI

由於Stable Diffusion WebUI無法原生支持中文模型，我們開發了Chinese Diffusion WebUI，作爲Stable Diffusion WebUI的插件提供給用戶。它提供了圖形劃的用戶界面，使用戶（尤其是沒有編程經驗的設計師）可以使用PAI-Diffusion中文模型的多種功能，例如文生圖、圖生圖、圖像風格遷移、圖像編輯等。Chinese Diffusion WebUI的界面如下圖所示：

爲了方便用戶在PAI-EAS上使用Chinese Diffusion WebUI，我們的插件也支持了兩種模式：單機版本和集羣版本，用戶可以根據需求和資源選擇不同的模式。在單機版中，用戶在獨佔的節點上使用Chinese Diffusion WebUI，特別方便個人設計師的使用。集羣版利用PAI的彈性推理服務，實現並行處理，高效利用和共享計算資源，從而實現了更高的資源利用率。

此外，Chinese Diffusion WebUI也可以在非PAI-EAS環境下使用，用戶只需要在下載Chinese Diffusion WebUI插件，放置在標準Stable Diffusion WebUI的插件目錄下就可以實現本地的使用了。

Diffusers-API

Diffusers-API是阿里雲機器學習PAI團隊開源的、基於Diffusers的文圖生成雲服務SDK。用戶可以直接基於本項目提供的鏡像，在PAI-EAS上部署各種Diffusion相關服務，例如文生圖、圖生圖、LoRA、ControlNet等。Diffusers-API還基於PAI-Blade對模型進行了推理優化，降低推理流程的端到端延遲 2.3 倍，同時可顯著降低顯存佔用，超過TensorRT-v8.5等業內SOTA優化手段。

在Diffusers-API中，我們使用StableDiffusionLongPromptWeightingPipeline作爲默認的推理接口，以支持帶有權重的、無長度限制的英文Prompt。然而，Diffusers默認的推理接口無法無縫支持中文文本的處理。我們擴展了StableDiffusionLongPromptWeightingPipeline，根據載入模型的Text Encoder，自動檢測語言，並且進行適配，使得無需修改Diffusers-API的任何接口的條件下，支持社區Stable Diffusion和PAI-Diffusion中文模型的一鍵部署，其HTTP請求體示例如下：

{
  "task_id" : "001",
  "prompt": "一隻可愛的小貓咪",
  "negative_prompt": "模糊",
  "cfg_scale": 7,
  "steps": 25,
  "image_num": 1,
  "width": 512,
  "height": 512,
  "use_base64": True
}

部署PAI-Diffusion中文模型的步驟詳見這裏。

總結

通過先前的PAI-Diffusion中文模型的開源，我們成功提升了圖像生成質量和風格多樣化，並實現了中文文本描述下各種場景的高清大圖生成。此外，我們還推出了自研的Prompt美化器BeautifulPrompt，爲Stable Diffusion類應用提供了一鍵美圖的能力。在本次的工作中，我們不僅將PAI-Diffusion中文模型家族擴展到多種應用場景，還全面開源了12個PAI-Diffusion中文模型，包括基礎模型、LoRA、ControlNet等。我們的工作希望爲開發者們提供更多的創作可能性和創新機會，共同推動AI生成內容技術的發展，創造出更有創意和影響力的作品。此外，我們還推出了兩個開源工具，Chinese Diffusion WebUI和Diffuser-API，提供便捷的使用體驗。Chinese Diffusion WebUI作爲插件與PAI-EAS無縫兼容，支持用戶在5分鐘內快速搭建中文AIGC應用；而Diffusers-API則完美支持中文模型的快速部署和推理。我們期待與開發者們共同推動AI生成內容技術的前進。

點擊立即免費試用雲產品開啓雲上實踐之旅！

原文鏈接

本文爲阿里雲原創內容，未經允許不得轉載。

多場景 PAI-Diffusion 中文模型家族大升級，12個模型、2個工具全部開源

概述

多場景的PAI-Diffusion中文模型家族

應用場景一：輸入草稿圖和對應的Prompt，生成精細的藝術圖畫。

應用場景二：污染破損的古詩詞繪畫圖像的修復，即image in-painting。

應用場景三：爲國風遊戲繪製中國古代室內場景。

PAI-Diffusion中文模型部署工具

Chinese Diffusion WebUI

Diffusers-API

總結

《日本蠟燭圖》讀書筆記 & 技術分析回測

一分鐘部署 Llama3 中文大模型，沒別的，就是快

Python多線程編程深度探索：從入門到實戰

《期貨-市場技術分析》讀書筆記

mongodb處理json數據很好

頂級 Javaer 都在用的 20 個類庫，真香！

[轉帖]cpupower

google瀏覽器插件開發

35K*14 薪，入職了！這公司只要不裁員，我能一直呆下去！

SpringBoot配置HTTPS及開發調試

Linux下製作Nginx綠色免安裝包

數字化轉型新篇章：企業通往智能化的新範式

全面提升 RAG 質量！Zilliz 攜手智源集成 Sparse Embedding、Reranke

一分鐘部署 Llama3 中文大模型，沒別的，就是快

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結