《論文閱讀》Single Image Reflection Removal through Cascaded Refinement

留個筆記自用

Single Image Reflection Removal through Cascaded Refinement

做什麼

在真實世界的照片中,經常會出現玻璃反射的不良現象。它不僅顯著降低了圖像質量,而且影響了目標檢測和語義分割等下游計算機視覺任務的性能。
在這裏插入圖片描述
簡單來說就是照相的時候正前方的鏡片會反光,而要做的就是把一張composed圖分割成兩張,一張reflection,一張transmission
在這裏插入圖片描述

做了什麼

這裏用到了另外一篇論文的想法
Hidden Community Detection in Social Networks
在這裏插入圖片描述
上圖是一個人羣社交網絡,假設知道其中節點之間的權重邊,這樣就能找到存在着主要社交網絡Team1、Team2、Team3,但其中比如Team1中存在三個人和Team2的三個人還存在着一個隱藏關係Tennis group。
如何找到隱藏社交網絡的方法:step1.先用baseline(最近鄰之類的)找到所有優勢社區(假設有圖上3個),削弱它們各自內部的連接權重,這樣優勢社區內部的連接全部就減弱了,但該社區與外部的連接權重不變。step2.重複使用baseline算法,可能就能發現隱藏社區。
在這裏插入圖片描述
這裏假設T圖爲一個社區,R圖爲一個社區,從T中分離出兩個社區之後,如果兩者是有關係並且能分離的,削弱T圖內部聯繫->得到R->削弱R內部聯繫->得到T->削弱T內部聯繫->得到R…

怎麼做

在這裏插入圖片描述
輸入:T(最開始初始化爲I)、I、R堆疊成9通道的圖
中間部分分爲上下兩個網絡GT、GR這裏可以理解爲兩個生成網絡,GT生成一輪迭代後的T圖,GR生成一輪迭代後的R圖,兩者結合生成一輪迭代後的I圖,三張圖爲一輪迭代的輸出,將三張圖分別替代輸入的T、I、R後開始新一輪迭代
論文中由T和R組成I的方式爲
I =clip(α · T + R). α ∈ [0.8, 1]
在這裏插入圖片描述
然後是中間的GT和GR,網絡結構相同但不共享權重:
前半部分是11個Conv+relu尋找圖片特徵,中間是一層Convlstm,後半部分是8個Deconv+relu生成圖片,稍微特點的地方就是中間的Convlstm部分,可從下面理解,Convlstm溝通的是不同迭代輪次的中間層
在這裏插入圖片描述
接下來是LOSS:
在這裏插入圖片描述
第一個loss就是圖片中的重構loss,直接對比新一輪迭代生成的I圖和原圖的像素差,這就是爲了保證生成的合成圖要和原來類似,防歪

在這裏插入圖片描述
在這裏插入圖片描述
第二個LOSS是perceptual loss,即爲下圖的這部分,前面說到右半部分是生成器,從中抽取原圖比例大小的層取出來,比如Ground Truth是256×256的,則生成器的右邊第三層得到的就是128×128的,這就是網絡中間生成的圖,將這張圖經過VGG得到一個特徵M,將256×256的原圖進行比例縮小成128×128的,經過VGG也能得到一個特徵N,將M、N做LOSS,其他比例比如64×64也同理。這應該是爲了使T圖的細節特徵和全局特徵都與Ground truth靠近
在這裏插入圖片描述
第三個LOSS就是計算迭代生成的T圖和原圖的像素差和迭代生成的R圖和I與T直接做差得到的圖的像素差
這裏的I與T直接做差的意思是在這裏插入圖片描述
在這裏插入圖片描述
第四個LOSS,簡單來說就是構造一個辨別器discriminator,也就是對抗LOSS,儘可能地辨別真實圖片和模型生成圖片的區別,這裏用的是《Single Image Reflection Separation with Perceptual Losses》的想法,這個loss用處就是當reflection層和transmission層分離之後,transmission層圖片會變得不真實,所以用這個來進行微調。
在這裏插入圖片描述
組合,這裏的λ1=1,λ2=1,λ3=2,λ4=0.01

結論

1.lstm來迭代式分離R圖和T圖,但其實跟motivation沒什麼關係。。(感覺可以用圖卷積來模擬社交網絡)
2.同時得到R圖和T圖,並且整了一堆loss來評價

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章