《論文閱讀》Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content

原創

2020-07-06 19:46

留個筆記自用

Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content

做什麼

圖像視覺換裝旨在將目標服裝圖像轉移到參考人員身上，近年來已成爲一個熱門話題。以前的藝術通常專注於保持服裝形象的特徵(例如。紋理，標誌，刺繡)當扭曲它到任意的人類姿勢。然而，當參考者中出現大遮擋和奇異人類姿勢時，生成照片逼真的 Try-on 圖像仍然是一個巨大的挑戰。

提供一個參考2D人物，提供目標衣服，模擬將目標衣服更換到人物身上代替人物當前衣服實現換裝

做了什麼

解決了這三個問題：
1.紋理過度浮誇
2.下裝無法保留
3.人體肢體模糊

怎麼做

整體結構分爲三個模塊：
1.Semantic Generation Module（語義生成模塊 SGM）

輸入：目標圖像T、姿態映射點M_p、身體和衣服的掩碼M_f，其中M_f是由源圖像I進行掩碼操作得到，僅僅區分衣服和人物身體部分
將三個輸入G₁，得到M_ws，其中G₁爲微調的Conditional Gan，M_ws爲新的掩碼圖，該圖區分人體的頭、手臂、下裝，也就是單獨把上裝部分隔離出來。
以下是conditional gan，跟一般gan的區別就是它等於是在輸入中加了一個限制條件，保證生成的圖片符合它的condition，這裏生成器使用的都是Unet，判別器使用的都是pix2pixHD

下一步將得到的M_ws和姿態映射點M_p堆疊後和目標圖像T輸入G₂，以得到僅僅只有衣服的掩碼M_c這裏G₂也是conditional gan，M_c的目的是得到目標服裝T在該人物模型身上衣服的形狀
第一模塊的兩個condition gan的loss爲

x是input，y是mask的ground truth，z是noise，很標準的標準loss

2.Clothes Warping Module（服裝翹曲模塊CWM）

step2：將step1得到的M_c和目標圖像T共同輸入一個STN網絡，這裏的STN是spatial transformation network
所謂空間變換網絡，實際上是在神經網絡的某兩層之間引入一個空間變換網絡，意思其實就是一個座標轉換，將目標圖像通過一定空間轉換到M_c這個mask上。這裏採用的是薄板樣條插值算法（TPS），假設原來形狀有N個點，將N個點形變後能得到新的N個點的座標，這裏用一個薄板來模擬2D形變
類似這個簡單的例子

由STN得到T_cW，將其經過一個refinement network去生成更多的細節得到T_cR，就是添加紋理和色彩，論文中似乎沒提及用的什麼網絡，將T_cR和T_cW通過一個計算公式重新得到T_cR，意爲得到帶有紋理的目標衣服經過空間變換的結果

這部分中STN的LOSS爲

p(x,y)表示某個採樣控制格點，S(p,p’)表示p和p’兩個點之間的斜率。PP‘限制了扭曲距離，S限制了扭曲幅度，從這可以看到做出了約束，它防止內部花紋經過TPS後變化較大而喪失了內部信息，簡單來說就是使薄板點變化較均勻較小。

同時定義另外一個LOSS，該loss爲完成形變的T_cW和目標圖像T的

最後將這兩個loss相加

3.Content Fusion Module（CFM）

step3：由源圖像I能得到一個粗略的上裝mask M_c，再有SGM生成的M_ws兩者做元素乘法，目的是爲了得到M_aG，即爲人物的手臂的mask。再用源圖像I能得到不包含衣服的mask也就是M_w，M_w和M_aG做元素加法，目的爲了得到不包含上裝的人物mask，再用step2得到的M_cS和元素加法的結果做mask元素乘法，得到M_wC。

其中第一步是爲了得到手臂mask，第二步是用step1得到的人物上裝的mask來進一步和step3得到的除上裝的mask做確認，也就是讓M_cS爲1的部分即表示mask中存在衣服的部分去轉換成0後乘以M_w，保證最終效果是人物只去除了上裝的mask。

step4：T_cR爲step2得到的結果，M_CS爲step1得到的結果，M_wC爲step3得到的結果。I_w是由源圖像I直接減去上裝maskM_c，即爲源圖像減去了上裝的圖像，爲了防止出現源圖像是短袖但目標衣服是長袖的情況，這裏對I_w進行了隨機掩碼處理的操作，這裏的隨機掩碼用到的Irregular Mask Dataset。

M_k取自於上面的數據集，對I_w進行隨機掩碼遮蓋掉手的部分之後，得到最終的I_w。將四個圖像堆疊在一起輸入進最後的G₃得到最終生成圖IS
最終圖的LOSS也爲step3中的VGG LOSS和L1 LOSS