DAAM:首次利用視覺語言學解釋大型擴散模型

出品人:Towhee 技術團隊 張晨、顧夢佳

大規模擴散神經網絡代表了文本到圖像生成的一個重要里程碑,但它們仍然缺乏可解釋性分析。DAAM 對最近開源的模型 Stable Diffusion 進行了文本-圖像歸因分析。爲了生成像素級屬性圖,DAAM 在去噪子網絡中放大和聚合交叉注意力字像素分數。通過歸因分析,DAAM 主要研究瞭如何將語法關係轉化爲視覺交互,並關注了擴散模型中的視覺語言現象。通過定量語義分割任務和定性廣義歸因研究,證明了歸因方法 DAAM 的正確性。DAAM 是第一個從視覺語言學的角度解釋大型擴散模型,這使得未來的研究成爲可能。

The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”

DAAM 在 Stable Diffusion 去噪逆擴散過程中選擇了稍微靠後的步驟,進行可解釋性研究。常規的歸因分析通過梯度進行計算,但在擴散模型中無法進行梯度計算,因此 DAAM 選用詞彙和特徵圖的得分的方式進行分析。通過評估句法關係如何轉化爲視覺互動,DAAM 發現某些注意力頭不恰當地包含了他們的從屬。因爲,DAAM 得到了特徵糾纏的假設,表明同位詞是混亂的,而形容詞的範圍太廣了。

相關資料:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章