教你構建一個優秀的SD Prompt

2. 構建一個優秀的Prompt

在使用Stable Diffusion AI時,構建一個有效的提示(Prompt)是至關重要的第一步。這個過程涉及到創造性的嘗試和對AI行爲的理解。這裏我會對如何構建一個好的Prompt進行一個總結。

什麼是一個好的提示詞

構建有效的提示是使用Stable Diffusion AI或其他AI圖像生成工具的關鍵。一個好的提示能夠精確地指導AI生成你心中所想的圖像。爲了幫助你創建這樣的提示,我們可以探討不同的關鍵詞類別,並看看如何將它們組合起來生成圖像。以下是一些主要的關鍵詞類別,以及如何使用它們來構建你的提示:

  • 主題 (Subject)

這是你的圖像的核心內容。它可能是一個物體、一個人、一個地方或一個事件。例如:“孤獨的燈塔”、“繁忙的市場”或“寧靜的森林”。

  • 媒介 (Medium)

這裏指的是圖像的物理或視覺表現形式。例如:“油畫”、“水彩畫”、“數字繪畫”或“鉛筆素描”。

  • 風格 (Style)

這是指圖像的整體視覺風格或藝術流派。你可以指定一個特定的藝術家、藝術時期或流行的視覺風格。例如:“印象派”、“賽博朋克”、“超現實主義”或“宮崎駿動畫風格”。

  • 藝術分享網站 (Art Sharing Platforms)

有時候,你可能在藝術分享網站上看到了一些你喜歡的圖像,你可以在提示中提及這些網站來獲取類似的風格。例如:“Behance上的數字藝術”、“DeviantArt的幻想插畫”或“Pinterest上的極簡主義設計”。

  • 分辨率 (Resolution)

指定你想要的圖像尺寸。雖然Stable Diffusion的標準輸出是512×512像素,但你可以根據需要調整。例如:“4K分辨率”、“高清壁紙”或“社交媒體縮略圖”。

  • 附加細節 (Additional Details)

這些是你希望在圖像中包含的特定元素或特徵。例如:“穿着中世紀盔甲的騎士”、“有瀑布的熱帶雨林”或“未來城市的夜景”。

  • 顏色 (Color)

指定圖像的主要顏色或顏色方案。例如:“暖色調”、“冷色調”、“鮮豔的色彩”或“柔和的粉色”。

  • 燈光 (Lighting)

描述你想要的光照效果。例如:“柔和的日落光線”、“戲劇性的陰影”、“明亮的陽光”或“神祕的月光”。

在構建提示時,你可以根據需要選擇使用這些類別中的一個或多個。下面是一個使用這些類別構建的示例提示:

A cyberpunk-style digital artwork, displaying neon lights and flying cars in the night scene of a future city. The image adopts 4K resolution, with bright colors and strong blue and purple tones under the light

使用這個提示,你可以在Dreamshaper模型或其他適合初學者的模型中生成圖像。記得,生成圖像的過程是一個迭代的過程,不斷嘗試和調整將幫助你獲得最佳結果。在後續的實踐中,你還可以探索如何使用負面提示來排除你不希望出現在圖像中的元素。

主題

主題是您希望在圖像中看到的內容。一個常見的錯誤是關於主題的描述不夠。比如說,我們想生成一個施展魔法的女巫。一個新手可能只寫了一個女巫的描述。

A witch

你會得到一些還不錯的圖像,但這個提示留下了太多想象的空間。 你希望女巫的樣子是怎樣的?你有沒有一些關鍵詞來更具體地描述她?她穿着什麼?她施展的是什麼樣的魔法?她是站着、跑步還是漂浮在空中?背景是什麼樣的? Stable Diffusion 無法讀取我們的想法。我們必須明確地表達我們想要的。 作爲演示,比如說她是一個強大而神祕的女巫,使用閃電魔法。她穿着鑲有寶石的皮革服裝。她坐在一個岩石上。她戴着帽子。背景是一座城堡。

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background

現在,我們生成更具體的圖像。服裝、姿勢和背景在圖像間保持一致。

Medium

Medium是製作藝術作品所使用的材料。一些例子包括插畫、油畫、3D渲染和攝影。Medium具有強大的影響力,因爲一個關鍵詞就能極大地改變風格。 讓我們加入關鍵詞 數字藝術

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art

這些圖像從逼真的繪畫風格轉變爲更像是計算機圖形。那麼還能不能做更多的修改呢?

風格

風格指的是圖像的藝術風格。例如印象派、超現實主義、波普藝術等。 在提示中添加超寫實、幻想、黑暗藝術

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art

現在,場景變得更加陰暗和憂鬱。

藝術分享網站

像Artstation和Deviant Art這樣的細分圖形網站匯聚了許多不同風格的圖片。在提示中使用它們是將圖片引向這些風格的一種方式。 讓我們在提示中加入artstation

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation

這個變化並不大,但這些圖片看起來確實像你在Artstation上找到的內容。

分辨率

分辨率代表着圖像的清晰度和細節程度。讓我們添加關鍵詞高度詳細清晰焦點

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus 

嗯,效果並不是很明顯,也許是因爲之前的圖像已經相當清晰和詳細了。但添加一些也無妨。

附加細節

附加細節是用來修改圖像的“甜味劑”。我們將添加科幻反烏托邦來爲圖像增添一些氛圍。

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia

顏色

通過添加顏色 關鍵詞,您可以控制圖像的整體顏色。您指定的顏色可能會以色調或對象的形式出現。 讓我們用關鍵詞閃光金向圖像添加一些金色。

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia,Glitter gold

金色在一些地方表現得非常出色!

燈光

任何攝影師都會告訴你,燈光對於創造成功的圖像至關重要。燈光關鍵詞對圖像的外觀有很大影響。讓我們添加一些工作室燈光,使其看起來像是工作室拍攝的照片。

A beautiful and powerful mysterious witch, smiling, sitting on a rock, lightning magic, hat, detailed leather costume complete with gems, skirt, castle background, Digital Art,Hyperrealistic, fantasy, dark art
artstation,Highly detailed,clear focus,Science fiction, dystopia,Glitter gold,Studio lighting

備註

您可能已經注意到,這些圖片只需添加一些關鍵詞就已經相當不錯了。在構建提示時,並不總是越多越好。通常情況下,您並不需要太多關鍵詞來獲得好的圖片。

使用負面提示

使用負面提示是另一種引導圖像的好方法,但與其輸入你想要的,不如輸入你不想要的。它們不一定是物體,也可以是風格和不想要的屬性(例如醜陋,畸形)。 對於v2模型來說,使用負面提示是必不可少的。沒有它,圖像看起來會遠遠遜色於v1的。對於v1和SDXL模型來說,它們是可選的,但是最好添加上去,因爲萬一有效果呢? 我將使用一個簡單的通用負面提示,它不會修改風格。

Misshapen, misshapen, ugly

構建一個優秀promot的過程

在計算機科學領域,一個好的提示是提高用戶體驗的關鍵。下面是構建一個良好提示的一般步驟:

  1. 明確提示的目的:首先要明確提示的目的是什麼,它是爲了引導用戶完成某個操作,還是爲了提供必要的信息。只有明確了目的,才能更好地構建提示內容。

  2. 選擇合適的時機:提示的時機非常重要,過早或過晚的提示都會影響用戶的體驗。要根據用戶操作的上下文,選擇合適的時機進行提示。

  3. 簡潔明瞭的內容:提示內容要簡潔明瞭,避免使用過於晦澀的專業術語,讓用戶能夠快速理解並作出相應的反應。

  4. 考慮用戶反饋:在構建提示時,需要考慮用戶的反饋,尤其是之前類似提示的反饋。通過用戶反饋,及時對提示進行修改和優化。

  5. 測試和優化:構建完提示後,需要進行測試,觀察用戶對提示的反應,並根據反饋進行相應的優化和修改。

通過以上步驟,我們可以構建出一個良好的prompt,提高用戶體驗,促進用戶完成操作。

迭代式prompt構建

構建有效的提示確實是一個迭代的過程,需要通過不斷的試驗和調整來完善。以下是一些策略和建議,可以幫助你在構建Stable Diffusion AI的提示時更加高效和有目的性:

1. 從簡單開始

開始時,創建一個包含主題、媒介和風格的簡單提示。這將爲AI提供一個基本的框架來生成圖像。例如:“中世紀城堡的水彩畫”。

2. 批量生成和評估

每次生成至少4張圖像,這樣可以更好地評估提示的效果。由於AI生成的圖像可能存在差異,生成多張圖像可以讓你有一個統計上的理解,哪些元素在提示中是有效的。

3. 逐步添加關鍵詞

在每次迭代中,嘗試添加一兩個新的關鍵詞到提示中。再次生成至少4張圖像來評估新關鍵詞的影響。這種方法可以幫助你理解每個關鍵詞如何影響最終的圖像。

4. 使用負面提示

負面提示是指導AI避免生成某些元素的強大工具。如果你發現某個模型在渲染特定對象或身體部位時存在問題,比如手部,可以在負面提示中加入這些關鍵詞,如“無手”或“不顯示手”。

5. 迭代過程中的關鍵詞細化

隨着你對模型的瞭解越來越深入,你可以開始將更具體的關鍵詞添加到負面提示中。這可以幫助你更精細地控制生成的圖像,避免不想要的特徵或細節。

6. 記錄和回顧

在整個迭代過程中,記錄你的提示和生成的圖像結果。這不僅有助於你追蹤哪些關鍵詞有效,哪些無效,還可以幫助你在未來的項目中更快地構建有效的提示。

通過遵循這些策略,你可以逐步完善你的提示,最終生成滿足你要求的高質量圖像。記住,每個AI模型都有其獨特的特點和限制,因此投入時間來了解和適應你正在使用的特定模型是非常重要的。不斷實踐,你將能夠更加熟練地使用Stable Diffusion AI來創造出令人印象深刻的視覺作品。

prompt技巧

在特定的採樣步驟中,您可以通過切換到不同的關鍵詞來修改關鍵詞的重要性。 以下語法適用於AUTOMATIC1111 GUI。

關鍵詞權重

此語法適用於AUTOMATIC1111 GUI。) 您可以通過語法(關鍵詞: 因子)來調整關鍵詞的權重因子是一個數值,小於1表示不太重要,大於1表示更重要。 例如,我們可以調整以下提示中關鍵詞dog的權重:

(Dog:1),mist,smoke,fire,chimney,rain,damp,primitive,puddle,melting,dripping water,snow,stream,lush,ice,bridge,forest,rose,flower,Stanley Artgerm Lau,Greg Rutkowski,Thomas Kincade,Alphonse Mucha,Loish,Norman Rockwell.,

增加dog的權重傾向於生成更多的狗。減少它傾向於生成更少。對於每張圖片來說並不總是正確的,但從統計意義上來說是正確的。

這種技術可以應用於主題關鍵詞和所有類別,比如風格和光線。

()和[]語法

(此語法適用於 AUTOMATIC1111 GUI。) 調整關鍵字強度的等效方法是使用 ()[]

  • (關鍵字)將關鍵字的強度增加1.1倍,與(關鍵字:1.1)相同。
  • [關鍵字]將關鍵字的強度減少0.9倍,與(關鍵字:0.9)相同。

你可以像在代數中一樣使用多個(),效果是乘法:

  • (關鍵字) 等同於 (關鍵字: 1.1)
  • ((關鍵字)) 等同於 (關鍵字: 1.21)
  • (((關鍵字))) 等同於 (關鍵字: 1.33)

同樣,使用多個 [] 的效果是:

  • [關鍵字] 等同於 (關鍵字: 0.9)
  • [[關鍵字]] 等同於 (關鍵字: 0.81)
  • [[[關鍵字]]] 等同於 (關鍵字: 0.73)

AUTOMATIC1111 提示:您可以使用 Ctrl + 上/下箭頭(Windows)或 Cmd + 上/下箭頭來增加/減少關鍵字的權重。

關鍵詞混合

此語法適用於 AUTOMATIC1111 GUI。) 您可以混合兩個關鍵詞。正確術語是提示調度。語法是 [keyword1 : keyword2: factor] factor 用來控制關鍵詞1何時切換到關鍵詞2。它是一個介於0和1之間的數字。例如,如果我使用提示

Oil painting portrait of [Joe biden: donald trump: 0.5]

進行30個採樣步驟。 這意味着步驟1到15的提示是 Oil painting portrait of Joe biden 而步驟16到30的提示變爲 Oil painting portrait of donald trump 因子確定了關鍵詞何時改變。 改變因子的效果是以不同程度混合兩位總統。

第一個關鍵詞決定了全局構圖。早期擴散步驟確定了整體構圖。後續步驟完善細節。

混合面孔

一個常見的用例是創建一個具有特定外表的新面孔,借鑑演員和女演員的特點。例如,[Emma Watson: Amber heard: 0.85]:

當仔細選擇兩個名字並調整因子時,我們可以精確地得到想要的外表。 另外,你可以使用多個名人的名字和關鍵詞權重來調整面部特徵。例如: (Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2)

從提示到提示

通過關鍵詞混合,你可以實現類似於提示到提示的效果,生成一對高度相似的圖像並進行編輯。以下兩幅圖像是使用相同的提示生成的,除了一個地方不同,那就是使用了apple 和fire混合。種子和步數保持不變。

拿着一個[apple: fire: 0.3]

這背後的理論是圖像的整體構圖是由早期的擴散過程設定的。一旦擴散被困在一個小空間裏,交換任何關鍵詞對整體圖像的影響不會很大。它只會改變一個小部分。

保持一致的面孔

使用多個名人的名字是混合兩個或更多面孔的簡單方法。混合在不同的圖片上都是一致的。當你使用多個名字時,Stable diffusion會理解爲生成一個人,但具有這些面部特徵。

下面的短語使用多個名字來混合三個具有不同權重的面孔。

(Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2)

我們試下這種方式的效果,提示是:

(Emma Watson:0.5), (Tara Reid:0.9), (Ana de Armas:1.2),Photo of a young lady, prominent hair, sitting outside a restaurant, wearing a dress, edge lighting, studio lighting, looking into the lens, DSLR camera, Ultra High quality, Clear focus, depth of field, film grain, Fujifilm XT3, Crystal clear, 8K Ultra HD, Highly detailed shiny eyes, Highly detailed skin, skin pores

以下是具有相同提示的圖片:

看到這張臉在不同的圖片上重複出現了吧! 使用多個名人的名字和關鍵詞權重來精心調整你想要的面部特徵。你還可以在負面提示中使用名人的名字來避免你不想要的面部特徵。

提示可以有多長?

根據您使用的Stable Diffusion服務不同,提示中可以使用的關鍵詞數量可能會有限制。在基本的Stable Diffusion v1模型中,這個限制是75個token。 請注意,token與單詞不同。 例如,dream是一個token,beach是另一個token。但dreambeach是兩個token,因爲這個模型不認識這個單詞,所以模型會將這個單詞分解成dreambeach,它認識這兩個單詞。

AUTOMATIC1111中的提示限制

AUTOMATIC1111沒有token限制。如果一個提示包含超過75個token,也就是CLIP分詞器的限制,它將開始一個新的另外75個token的塊,所以新的“限制”變成了150。這個過程可以無限延續,或者直到您的計算機內存用盡。 每個75個token的塊都是獨立處理的,處理後的表示會在輸入到Stable diffusion的U-Net之前進行連接。 在AUTOMATIC1111中,您可以通過查看提示輸入框右上角的小框來檢查令牌的數量。

開始一個新的提示塊

如果你想在達到75個token之前開始一個新的提示塊怎麼辦?有時候你想這樣做是因爲提示塊開頭的標記更有效,而且你可能想將相關關鍵詞分組在一個提示塊中。 你可以使用關鍵詞BREAK來開始一個提示塊。下面的提示使用了兩個提示塊來指定帽子是白色的,裙子是藍色的。

A picture of a woman in a white hat 
BREAK 
Blue skirt

如果沒有使用BREAK,Stable Diffusion更有可能混淆帽子和裙子的顏色。

名人姓名的關聯

每個關鍵詞都會有一些意想不到的關聯。這在名人姓名中尤其如此。一些演員喜歡擺特定的姿勢或穿特定的服裝拍照,這也會出現在訓練數據中。如果你想想,模型訓練本質上就是通過關聯學習。如果 Taylor Swift(在訓練數據中)總是交叉雙腿,模型會認爲交叉雙腿也是 Taylor Swift。

當你在提示中使用 Taylor Swift 時,你可能本意是使用她的臉。但是主題的姿勢和服裝也會產生影響。可以通過僅使用她的名字作爲提示來研究這種影響。

姿勢和服裝是全局構圖。如果你想要她的臉但不要她的姿勢,你可以使用關鍵詞混合來在後續採樣步驟中替換她。

點我查看更多精彩內容:www.flydean.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章