《論文閱讀》Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content

留個筆記自用

Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content

做什麼

圖像視覺換裝旨在將目標服裝圖像轉移到參考人員身 上,近年來已成爲一個熱門話題。 以前的藝術通常專注於保持服裝形象的特徵(例如。 紋理,標誌,刺繡)當扭曲它到任意的人類姿勢。 然而,當參考者中出現大遮擋和奇異人類姿勢時,生成照片逼真的 Try-on 圖像仍然是一個巨大的挑戰。
在這裏插入圖片描述
提供一個參考2D人物,提供目標衣服,模擬將目標衣服更換到人物身上代替人物當前衣服實現換裝

做了什麼

在這裏插入圖片描述
解決了這三個問題:
1.紋理過度浮誇
2.下裝無法保留
3.人體肢體模糊

怎麼做

在這裏插入圖片描述
整體結構分爲三個模塊:
1.Semantic Generation Module(語義生成模塊 SGM)
在這裏插入圖片描述
輸入:目標圖像T、姿態映射點Mp、身體和衣服的掩碼Mf,其中Mf是由源圖像I進行掩碼操作得到,僅僅區分衣服和人物身體部分
將三個輸入G1,得到Mws,其中G1爲微調的Conditional Gan,Mws爲新的掩碼圖,該圖區分人體的頭、手臂、下裝,也就是單獨把上裝部分隔離出來。
以下是conditional gan,跟一般gan的區別就是它等於是在輸入中加了一個限制條件,保證生成的圖片符合它的condition,這裏生成器使用的都是Unet,判別器使用的都是pix2pixHD
在這裏插入圖片描述
下一步將得到的Mws和姿態映射點Mp堆疊後和目標圖像T輸入G2,以得到僅僅只有衣服的掩碼Mc這裏G2也是conditional gan,Mc的目的是得到目標服裝T在該人物模型身上衣服的形狀
第一模塊的兩個condition gan的loss爲
在這裏插入圖片描述
x是input,y是mask的ground truth,z是noise,很標準的標準loss
在這裏插入圖片描述
2.Clothes Warping Module(服裝翹曲模塊CWM)
在這裏插入圖片描述
step2:將step1得到的Mc和目標圖像T共同輸入一個STN網絡,這裏的STN是spatial transformation network
所謂空間變換網絡,實際上是在神經網絡的某兩層之間引入一個空間變換網絡,意思其實就是一個座標轉換,將目標圖像通過一定空間轉換到Mc這個mask上。這裏採用的是薄板樣條插值算法(TPS),假設原來形狀有N個點,將N個點形變後能得到新的N個點的座標,這裏用一個薄板來模擬2D形變
在這裏插入圖片描述類似這個簡單的例子
在這裏插入圖片描述
由STN得到TcW,將其經過一個refinement network去生成更多的細節得到TcR,就是添加紋理和色彩,論文中似乎沒提及用的什麼網絡,將TcR和TcW通過一個計算公式重新得到TcR,意爲得到帶有紋理的目標衣服經過空間變換的結果
在這裏插入圖片描述
這部分中STN的LOSS爲
在這裏插入圖片描述
p(x,y)表示某個採樣控制格點,S(p,p’)表示p和p’兩個點之間的斜率。PP‘限制了扭曲距離,S限制了扭曲幅度,從這可以看到做出了約束,它防止內部花紋經過TPS後變化較大而喪失了內部信息,簡單來說就是使薄板點變化較均勻較小。
在這裏插入圖片描述
同時定義另外一個LOSS,該loss爲完成形變的TcW和目標圖像T的
在這裏插入圖片描述
最後將這兩個loss相加
在這裏插入圖片描述
3.Content Fusion Module(CFM)
在這裏插入圖片描述
step3:由源圖像I能得到一個粗略的上裝mask Mc,再有SGM生成的Mws兩者做元素乘法,目的是爲了得到MaG,即爲人物的手臂的mask。再用源圖像I能得到不包含衣服的mask也就是Mw,Mw和MaG做元素加法,目的爲了得到不包含上裝的人物mask,再用step2得到的McS和元素加法的結果做mask元素乘法,得到MwC。
在這裏插入圖片描述
其中第一步是爲了得到手臂mask,第二步是用step1得到的人物上裝的mask來進一步和step3得到的除上裝的mask做確認,也就是讓McS爲1的部分即表示mask中存在衣服的部分去轉換成0後乘以Mw,保證最終效果是人物只去除了上裝的mask。
在這裏插入圖片描述
step4:TcR爲step2得到的結果,MCS爲step1得到的結果,MwC爲step3得到的結果。Iw是由源圖像I直接減去上裝maskMc,即爲源圖像減去了上裝的圖像,爲了防止出現源圖像是短袖但目標衣服是長袖的情況,這裏對Iw進行了隨機掩碼處理的操作,這裏的隨機掩碼用到的Irregular Mask Dataset。
在這裏插入圖片描述
在這裏插入圖片描述
Mk取自於上面的數據集,對Iw進行隨機掩碼遮蓋掉手的部分之後,得到最終的Iw。將四個圖像堆疊在一起輸入進最後的G3得到最終生成圖IS
最終圖的LOSS也爲step3中的VGG LOSS和L1 LOSS

三個模塊的完整分佈訓練:
在這裏插入圖片描述

總結

1.使用了一個二階差分約束,防止生成的紋理過度
2.使用語義分割將人體分割成了頭、手、上裝、下裝,其實就是把問題整個分割化來解決,但這樣確實解決了模糊問題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章