留個筆記自用

Single Image Reflection Removal through Cascaded Refinement

做什麼

在真實世界的照片中，經常會出現玻璃反射的不良現象。它不僅顯著降低了圖像質量，而且影響了目標檢測和語義分割等下游計算機視覺任務的性能。

簡單來說就是照相的時候正前方的鏡片會反光，而要做的就是把一張composed圖分割成兩張，一張reflection，一張transmission

做了什麼

這裏用到了另外一篇論文的想法
Hidden Community Detection in Social Networks

上圖是一個人羣社交網絡，假設知道其中節點之間的權重邊，這樣就能找到存在着主要社交網絡Team1、Team2、Team3，但其中比如Team1中存在三個人和Team2的三個人還存在着一個隱藏關係Tennis group。
如何找到隱藏社交網絡的方法：step1.先用baseline（最近鄰之類的）找到所有優勢社區（假設有圖上3個），削弱它們各自內部的連接權重，這樣優勢社區內部的連接全部就減弱了，但該社區與外部的連接權重不變。step2.重複使用baseline算法，可能就能發現隱藏社區。

這裏假設T圖爲一個社區，R圖爲一個社區，從T中分離出兩個社區之後，如果兩者是有關係並且能分離的，削弱T圖內部聯繫->得到R->削弱R內部聯繫->得到T->削弱T內部聯繫->得到R…

怎麼做

輸入：T（最開始初始化爲I）、I、R堆疊成9通道的圖
中間部分分爲上下兩個網絡G_T、G_R這裏可以理解爲兩個生成網絡，G_T生成一輪迭代後的T圖，G_R生成一輪迭代後的R圖，兩者結合生成一輪迭代後的I圖，三張圖爲一輪迭代的輸出，將三張圖分別替代輸入的T、I、R後開始新一輪迭代
論文中由T和R組成I的方式爲
I =clip(α · T + R). α ∈ [0.8, 1]

然後是中間的G_T和G_R，網絡結構相同但不共享權重：
前半部分是11個Conv+relu尋找圖片特徵，中間是一層Convlstm，後半部分是8個Deconv+relu生成圖片，稍微特點的地方就是中間的Convlstm部分，可從下面理解，Convlstm溝通的是不同迭代輪次的中間層

接下來是LOSS：

第一個loss就是圖片中的重構loss，直接對比新一輪迭代生成的I圖和原圖的像素差，這就是爲了保證生成的合成圖要和原來類似，防歪

第二個LOSS是perceptual loss，即爲下圖的這部分，前面說到右半部分是生成器，從中抽取原圖比例大小的層取出來，比如Ground Truth是256×256的，則生成器的右邊第三層得到的就是128×128的，這就是網絡中間生成的圖，將這張圖經過VGG得到一個特徵M，將256×256的原圖進行比例縮小成128×128的，經過VGG也能得到一個特徵N，將M、N做LOSS，其他比例比如64×64也同理。這應該是爲了使T圖的細節特徵和全局特徵都與Ground truth靠近

第三個LOSS就是計算迭代生成的T圖和原圖的像素差和迭代生成的R圖和I與T直接做差得到的圖的像素差
這裏的I與T直接做差的意思是

第四個LOSS，簡單來說就是構造一個辨別器discriminator，也就是對抗LOSS，儘可能地辨別真實圖片和模型生成圖片的區別，這裏用的是《Single Image Reflection Separation with Perceptual Losses》的想法，這個loss用處就是當reflection層和transmission層分離之後，transmission層圖片會變得不真實，所以用這個來進行微調。

組合，這裏的λ₁=1，λ₂=1，λ₃=2，λ₄=0.01