多場景 PAI-Diffusion 中文模型家族大升級,12個模型、2個工具全部開源

概述

在過去幾年中,隨着AI生成內容(AI Generated Content,AIGC)的快速發展,Stable Diffusion模型在該領域嶄露頭角。阿里雲機器學習PAI團隊爲推動這一領域的發展,參考了Stable Diffusion的模型結構,結合中文語言的特點,通過大量對模型預訓練數據的處理和過濾,以及訓練過程的優化,提出了PAI-Diffusion中文文圖生成模型,實現了圖像生成質量的大幅提升和風格多樣化(看這裏)。PAI-Diffusion模型的Pipeline不僅包含了標準的Diffusion Model,還集成了中文CLIP跨模態對齊模型,使得模型能夠生成符合中文文本描述的各種場景下的高清大圖(看這裏)。此外,我們也推出了PAI的自研Prompt美化器BeautifulPrompt,賦能Stable Diffusion類應用一鍵出美圖(看這裏)。

我們在這次的工作中,將PAI-Diffusion中文模型家族擴展到多種應用場景,支持文生圖、文圖生圖、圖像修復、LoRA、ControlNet等多種常見功能。爲了更好地與開源社區互動,我們將12個PAI-Diffusion中文模型(包括基礎模型、LoRA、ControlNet等)全部開源,並支持用戶自由下載和使用,與開發者一起共同推動AI生成內容技術的發展,創造出更有創意和影響力的作品。此外,PAI-Diffusion中文模型對應兩個推理工具也在開源社區推出。其中,Chinese Diffusion WebUI作爲Stable Diffusion WebUI的插件與PAI-EAS無縫兼容,支持5分鐘內一鍵在PAI-EAS拉起中文AIGC應用;Diffusers-API也完美支持中文模型的快速部署和推理。

在下文中,我們詳細介紹PAI-Diffusion中文模型家族及其工具Chinese Diffusion WebUI和Diffuser-API的使用。

多場景的PAI-Diffusion中文模型家族

我們利用海量中文圖文對數據,訓練了如下12個模型,包括基礎模型、LoRA、ControlNet等,模型列表如下:

模型名 類別 使用場景
pai-diffusion-general-large-zh 基礎模型 中文文圖生成通用模型,默認支持生成圖像分辨率爲512*512
pai-diffusion-general-large-zh-controlnet-canny ControlNet 上述模型用於邊緣圖的ControlNet
pai-diffusion-general-large-zh-controlnet-depth ControlNet 上述模型用於深度圖的ControlNet
pai-diffusion-general-xlarge-zh 基礎模型 中文文圖生成通用模型(更大分辨率),默認支持生成圖像分辨率爲768*768
pai-diffusion-artist-large-zh 基礎模型 中文文圖生成藝術模型,默認支持生成圖像分辨率爲512*512
pai-diffusion-artist-large-zh-controlnet-canny ControlNet 上述模型用於邊緣圖的ControlNet
pai-diffusion-artist-large-zh-controlnet-depth ControlNet 上述模型用於深度圖的ControlNet
pai-diffusion-artist-large-zh-lora-poem LoRA 上述模型用於中文古詩畫的LoRA
pai-diffusion-artist-large-zh-lora-25d LoRA 上述模型用於2.5D插畫的LoRA
pai-diffusion-artist-xlarge-zh 基礎模型 中文文圖生成藝術模型(更大分辨率),默認支持生成圖像分辨率爲768*768
pai-diffusion-food-large-zh 基礎模型 中文文圖生成美食模型,默認支持生成圖像分辨率爲768*768
pai-diffusion-anime-large-zh 基礎模型 中文文圖生成二次元模型,默認支持生成圖像分辨率爲768*512

上述所有模型都可以在我們的Hugging Face Space進行下載,我們的模型也可以通過ModelScope進行調用。模型生成的效果如下所示:

下面給出了三個PAI-Diffusion中文模型的應用場景:

應用場景一:輸入草稿圖和對應的Prompt,生成精細的藝術圖畫。

應用場景二:污染破損的古詩詞繪畫圖像的修復,即image in-painting。

應用場景三:爲國風遊戲繪製中國古代室內場景。

爲了儘可能提升模型輸出圖像的質量,我們蒐集海量開源的圖文對數據集,包括大規模中文跨模態預訓練數據集WuKong、大規模多語言多模態數據集LAION-5B等。此外,我們也蒐集了大量不同領域、不同場景的數據集,用於擴展PAI-Diffusion中文模型家族的應用場景。我們針對圖像和文本進行了多種清洗方式,篩選掉低質量數據。具體的數據處理方式包括NSFW(Not Safe From Work)數據過濾、水印數據去除,我們也使用CLIP分數和美觀值分數評分,過濾CLIP分數和美觀值分數較低的數據,保證生成圖像的語義一致性和質量。爲了適配中文語義場景,我們的CLIP Text Encoder採用EasyNLP自研的中文CLIP模型(https://github.com/alibaba/EasyNLP)進行建模,使得模型更懂中文語言。

PAI-Diffusion中文模型部署工具

本節詳細介紹PAI-Diffusion中文模型對應的兩個開源工具。Chinese Diffusion WebUI作爲插件與PAI-EAS無縫兼容,支持5分鐘內一鍵拉起中文AIGC應用;Diffusers-API通過API形式支持中文模型的快速部署和推理。

Chinese Diffusion WebUI

由於Stable Diffusion WebUI無法原生支持中文模型,我們開發了Chinese Diffusion WebUI,作爲Stable Diffusion WebUI的插件提供給用戶。它提供了圖形劃的用戶界面,使用戶(尤其是沒有編程經驗的設計師)可以使用PAI-Diffusion中文模型的多種功能,例如文生圖、圖生圖、圖像風格遷移、圖像編輯等。Chinese Diffusion WebUI的界面如下圖所示:

爲了方便用戶在PAI-EAS上使用Chinese Diffusion WebUI,我們的插件也支持了兩種模式:單機版本和集羣版本,用戶可以根據需求和資源選擇不同的模式。在單機版中,用戶在獨佔的節點上使用Chinese Diffusion WebUI,特別方便個人設計師的使用。集羣版利用PAI的彈性推理服務,實現並行處理,高效利用和共享計算資源,從而實現了更高的資源利用率。

此外,Chinese Diffusion WebUI也可以在非PAI-EAS環境下使用,用戶只需要在下載Chinese Diffusion WebUI插件,放置在標準Stable Diffusion WebUI的插件目錄下就可以實現本地的使用了。

Diffusers-API

Diffusers-API是阿里雲機器學習PAI團隊開源的、基於Diffusers的文圖生成雲服務SDK。用戶可以直接基於本項目提供的鏡像,在PAI-EAS上部署各種Diffusion相關服務,例如文生圖、圖生圖、LoRA、ControlNet等。Diffusers-API還基於PAI-Blade對模型進行了推理優化,降低推理流程的端到端延遲 2.3 倍,同時可顯著降低顯存佔用,超過TensorRT-v8.5等業內SOTA優化手段。

在Diffusers-API中,我們使用StableDiffusionLongPromptWeightingPipeline作爲默認的推理接口,以支持帶有權重的、無長度限制的英文Prompt。然而,Diffusers默認的推理接口無法無縫支持中文文本的處理。我們擴展了StableDiffusionLongPromptWeightingPipeline,根據載入模型的Text Encoder,自動檢測語言,並且進行適配,使得無需修改Diffusers-API的任何接口的條件下,支持社區Stable Diffusion和PAI-Diffusion中文模型的一鍵部署,其HTTP請求體示例如下:

{
  "task_id" : "001",
  "prompt": "一隻可愛的小貓咪",
  "negative_prompt": "模糊",
  "cfg_scale": 7,
  "steps": 25,
  "image_num": 1,
  "width": 512,
  "height": 512,
  "use_base64": True
}

部署PAI-Diffusion中文模型的步驟詳見這裏

總結

通過先前的PAI-Diffusion中文模型的開源,我們成功提升了圖像生成質量和風格多樣化,並實現了中文文本描述下各種場景的高清大圖生成。此外,我們還推出了自研的Prompt美化器BeautifulPrompt,爲Stable Diffusion類應用提供了一鍵美圖的能力。在本次的工作中,我們不僅將PAI-Diffusion中文模型家族擴展到多種應用場景,還全面開源了12個PAI-Diffusion中文模型,包括基礎模型、LoRA、ControlNet等。我們的工作希望爲開發者們提供更多的創作可能性和創新機會,共同推動AI生成內容技術的發展,創造出更有創意和影響力的作品。此外,我們還推出了兩個開源工具,Chinese Diffusion WebUI和Diffuser-API,提供便捷的使用體驗。Chinese Diffusion WebUI作爲插件與PAI-EAS無縫兼容,支持用戶在5分鐘內快速搭建中文AIGC應用;而Diffusers-API則完美支持中文模型的快速部署和推理。我們期待與開發者們共同推動AI生成內容技術的前進。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章