圖像處理與計算機視覺-論文閱讀筆記

題目：Residual Networks for Light Field Image Super-Resolution
作者：Shuo Zhang, Youfang Lin, Hao Sheng
單位：北京交通大學計算機與信息技術學院北京交通數據分析與挖掘重點實驗室，中國民航民航旅客服務智能化應用技術重點實驗室，北京航空航天大學計算機科學與工程學院軟件開發環境國家重點實驗室，北京航空航天大學北京大數據與腦計算高級創新中心
期刊名稱：The IEEE Conference on Computer Vision and Pattern Recognition
發表時間：16 June 2019
閱讀時間：2019.9.29

研究領域（想要做什麼，功能，應用或研究背景）	研究一種提高光場圖像的空間分辨率的方法，用於改善全光攝像機的性能。
針對的問題（要解決什麼技術或者研究問題）	傳統方法通過基於先驗視差信息顯式扭曲其他視圖圖像來得到子像素信息，這種LF圖像視差估計方法存在遮擋，噪聲和無紋理區域，在重建的LF圖像中導致大量僞像。最近提出的一種基於深度學習的方法，用於光場超分辨率（LFSR），訓練過程中隱式地學習了視差信息，但是這些方法在探索準確的子像素信息和保留LF圖像的固有極線特性方面受到很大限制。本論文利用超分辨率網絡中的殘差結構設計了一種新型的殘差網絡（resLF），來增強LF圖像的空間分辨率。
解決方法的思路（總結基本原理，指出創新之處）	在所提出的方法中，首先將一個LF中的視點圖像按照其角度方向分成四組，然後輸入不同的網絡分支，以瞭解特定空間方向上的高頻細節。與其他光場超分辨率（LFSR）方法不同的是，其隱式地探索了反映視差信息的視圖圖像中固有的對應關係，並從該方法中學習了來自各個方向的子像素映射。然後將來自不同空間方向的殘差信息組合起來，以生成用於最終超分辨中央視圖圖像的完整殘差細節。LF被劃分爲不同的部分，並最終基於靈活的解決方案最終對整個視圖圖像進行了超分辨操作。
實驗結果及其性能（最好量化）	實驗是在不同的LF圖像和各種具有挑戰性的場景（噪聲、遮擋和非朗伯表面）上進行的。 resLF網絡可用於具有不同角度分辨率的合成和真實LF圖像。結果表明，在數字和視覺評估方面，該框架明顯優於其他最新方法，其中PSNR結果在2倍和4倍的超分辨率下平均提高了1.5dB。此外在對極平面圖像（EPI）的比較中表明，該方法能夠保留超分辨視圖圖像中的對應關係。
備註（其他方面值得學習或者關注的）	本文對當前各種提高光場圖像的空間分辨率的方法做了詳盡地調研，實驗方法具有參考價值，實驗論證和結果分析充分。

題目：Light Field Reconstruction Using Convolutional Network on EPI and Extended Applications
作者：Gaochang Wu, Yebin Liu, Lu Fang, Qionghai Dai, and Tianyou Chai
單位：清華大學自動化系寬帶網絡與數字媒體實驗室，東北大學過程工業綜合自動化國家重點實驗室
期刊名稱：IEEE Transactions on Pattern Analysis and Machine Intelligence
發表時間：08 June 2018
閱讀時間：2019.10.05

研究領域（想要做什麼，功能，應用或研究背景）	研究一種CNN框架，用於光場圖像的重構，能更好地解決圖像空間分辨率和角度分辨率之間的權衡，由此改善光場成像的性能。
針對的問題（要解決什麼技術或者研究問題）	先前提出的各種基於學習模型的方法雖然可以較好重建圖像，但是這些網絡訓練十分依賴數據並且不能輕易地轉換爲具有不同外觀屬性的數據，這限制了其通用性。由於光場數據在EPI域中具有相似的特性，本文提出的在極平面圖像（EPI）上重建光場圖像的網絡結構，可以很好地解決這一問題。
解決方法的思路（總結基本原理，指出創新之處）	本論文提出基於EPI模型上的“blur-restoration-deblur”框架，分3個步驟。1）blur：將每個EPI片段與選定的模糊內核卷積，得到EPI的空間低頻分量，由此平衡空間與角度信息。2）restoration：用CNN恢復在下采樣中被破壞的EPI角度細節。3）deblur：使用非盲去模糊操作恢復被EPI模糊抑制的空間細節。
實驗結果及其性能（最好量化）	將本文方法與Kalantariet等人提出的方法以及典型的基於深度模型的方法對比，對包括真實世界場景，顯微鏡光場數據和合成場景在內的3類數據集進行評估。1）真實世界場景：使用HCI數據集進行測試評估，該方法在合成視圖和EPI的視覺連貫性方面均達到了較高的性能。 2）顯微鏡光場數據：使用斯坦福光場顯微鏡數據集和基於相機陣列的光場顯微鏡數據集進行測試評估，該方法在被遮擋區域和半透明區域均產生了合理的結果。3）合成場景：使用HCI數據集進行測試評估，該框架對於具有不同稀疏度的輸入具有更勝任的能力。在3類場景數據集測試下， PSNR / SSIM測試值均有提升，具體數值見文中圖表。
備註（其他方面值得學習或者關注的）	該論文從多方面分析評估所提出的網絡框架，篇幅較大，可以更深層次地瞭解EPI、光場重建等的性質特徵，並對相關領域的研究現狀會有一個更清晰的認識。該論文從多方面對其網絡作出評估的多種方法及數據集也非常值得借鑑。由此論文擴展出的3大應用，也可以作爲將來解決相關問題的參考方案。

題目：Spatial and Angular Resolution Enhancement of Light Fields Using Convolutional Neural Networks
作者：M. Shahzeb Khan Gul and Bahadir K. Gunturk
單位：伊斯坦布爾醫科大學電子與電氣工程系
期刊名稱：IEEE Transactions on Image Processing
發表時間：15 January 2018
閱讀時間：2019.10.11

研究領域（想要做什麼，功能，應用或研究背景）	研究一種基於學習的光場增強方法，用於增強捕獲光場的空間分辨率和角度分辨率，以此提高光場圖像的超分辨率。
針對的問題（要解決什麼技術或者研究問題）	近年來主要提出兩種方法，來解決低空間分辨率問題：1）混合系統方法，其缺點在於價格昂貴，相機維度較高。2）將多幀超分辨率技術應用於光場子孔徑圖像。基於第2種方法，文中提出基於CNN的光場超分辨率方法，以此解決低空間分辨率問題
解決方法的思路（總結基本原理，指出創新之處）	本文提出了一種基於CNN的學習方法—LFSR，該方法分兩個步驟。在每個小透鏡區域中有A×A像素且每個透視圖的大小爲H×W的光場條件下，第1步使用CNN將角分辨率從A×A翻倍到2A×2A，第2步通過估計給定小透鏡區域之間的新的小透鏡區域，將空間分辨率從H×W倍增至2H×2W。創新點在於：網絡框架輸入的是原始光場數據，即小透鏡區域。
實驗結果及其性能（最好量化）	通過客觀質量比較，本文方法的PSNR值比LFCNN平均提高了4.46dB，比雙三次插值方法平均提高了2.80dB；本文方法的SSIM值比LFCNN平均提高了0.0655，比雙三次插值方法平均提高了0.0303。
備註（其他方面值得學習或者關注的）	本文對光場增強方法的國內外現狀描述較完整，調研充分，實驗部分的測試序列與實驗方法也有參考價值，實驗論證與結果分析充分。MLA（micro-lens arrays）、lenslet、sub-aperture等概念和原理需區分和了解。

題目：Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network
作者：Christian Ledig, Lucas Theis, Ferenc Husz ́ar, Jose Caballero, Andrew Cunningham,Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, Wenzhe Shi
單位：Twitter
期刊名稱：IEEE Conference on Computer Vision and Pattern Recognition
發表時間：21-26 July 2017
閱讀時間：2019.10.26

研究領域（想要做什麼，功能，應用或研究背景）	研究一種基於GAN的圖像超分辨率方法—SRGAN，用於恢復圖像的高頻細節，由此提高圖像的感知質量。
針對的問題（要解決什麼技術或者研究問題）	近年來在更深層次、更加快速的CNN的幫助下，單一圖像超分辨率在速度和精確度方面取得突破，但是在較大比例下其恢復細節方面效果不佳。基於此，文中提出了基於GAN的圖像超分辨率方法，由此得到照片級逼真的圖像。
解決方法的思路（總結基本原理，指出創新之處）	本文提出一種基於GAN的圖像超分辨率方法—SRGAN，其損失函數基於VGG網絡構造，由內容損失和對抗損失組成。創新點在於：之前的超分辨率工作都集中在提高客觀質量評估參數，該方法創造性地解決了主觀質量不高的問題，是第一個能夠爲4倍的放大因子得到逼真的自然圖像的框架。
實驗結果及其性能（最好量化）	使用Set5,Set14和BSD100三個基準數據集進行測試， SRGAN同NN, bicubic，SRCNN，SelfExSR，DRCN，ESPCN，SRResNet等方法相比，雖然PSNR和SSIM這兩個客觀評價指標一般，但是主觀評價指標MOS的表現卻是最好的，在三個數據集下數值分別達到3.58、3.72、3.56。這很好地說明SRGAN方法還原的圖像在視覺感觀上是最接近原始圖像的。
備註（其他方面值得學習或者關注的）	本文對圖像超分辨率的國內外現狀調研充分，實驗測試中，各比較方法和測試數據集可以作爲以後相關科研工作的參考， MOS指標可作爲以後主觀評價的參考標準。此論文在網上的討論較多，有空可嘗試着復現。

題目：Fast and Accurate Image Upscaling with Super-Resolution Forests
作者：Samuel Schulter，Christian Leistner，Horst Bischof
單位：格拉茨技術大學計算機圖形學與視覺研究所，微軟奧地利攝影測量所
期刊名稱：IEEE Conference on Computer Vision and Pattern Recognition
發表時間：7-12 June 2015
閱讀時間：2019.11.10

研究領域（想要做什麼，功能，應用或研究背景）	研究一種單一圖像放大方法，可以快速準確地將低分辨率圖像轉化爲高分辨率圖像。
針對的問題（要解決什麼技術或者研究問題）	依靠領域嵌入和稀疏編碼的相關方法雖然給超分辨率帶來巨大的質量改進，但是由於這些方法要麼太慢，要麼需要繁瑣的參數調整，所以很難在實踐中應用。本論文提出了一種通過隨機森林實現單一圖像超分辨率的新方法，可以很好地解決這一問題。
解決方法的思路（總結基本原理，指出創新之處）	在所提出的方法中，利用最近基於稀疏編碼方法與局部線性迴歸之間的密切關係，避免使用稀疏編碼字典來學習低分辨率圖像到高分辨率圖像的映射，使用一種更爲直接的方法—採用隨機迴歸森林公式。隨機森林是高度非線性的學習者，在學習和評估過程中通常都非常快。同時提出了一種新穎的正則化目標函數，該函數對樹在生長期間進行了優化，使其不僅可以在輸出標籤域上運行，而且可以在輸入數據域上運行。這簡化了在樹的葉結點中學習的局部線性迴歸器的任務，並未單一圖像超分辨率帶來更高質量的結果。
實驗結果及其性能（最好量化）	實驗是在不同的數據集（Set5、Set14、BSDS）和放大因子（2、3、*4）下進行的，與最新的各種方法（A+、SRCNN、BPJDL等）相比，文中方法的PSNR、IFC數值達到最高，同時所用時間相對較少，具體見表3。
備註（其他方面值得學習或者關注的）	本文對當時各種主流超分辨率方法做了詳盡地調研，實驗方法具有參考價值，實驗論證和結果分析充分。可擴展閱讀： J. Yang, J. Wright, T. Huang, Y. Ma, “Image Super-Resolution Via Sparse Representation”, TIP, vol. 19, no. 11, pp. 2861-2873, 2010.用以深入瞭解稀疏表示和字典學習的相關原理和算法

題目：Second-order Attention Network for Single Image Super-Resolution
作者：Tao Dai, Jianrui Cai, Yongbing Zhang, Shu-Tao Xia, Lei Zhang
單位：清華大學深圳研究生院，鵬城實驗室網絡與通信研究中心，香港理工大學計算機系，阿里巴巴達摩院
期刊名稱：The IEEE Conference on Computer Vision and Pattern Recognition
發表時間：16 June 2019
閱讀時間：2019.11.20

研究領域（想要做什麼，功能，應用或研究背景）	文中提出了一個深的二階注意力網絡SAN，以獲得更好的特徵表達和特徵相關性學習，用於提高單一圖像的超分辨率
針對的問題（要解決什麼技術或者研究問題）	現存基於CNN的SR模型仍然面臨一些限制：1）大多數基於CNN的SR方法沒有利用好原始LR的信息，導致相對低的性能。2）大多數基於CNN的SR模型主要專注於設計更深更寬的網絡，去學習更有判別力的高維特徵，卻很少發掘層間特徵的內在相關性，從而妨礙了CNN的表達能力。文中提出一種深的二階注意力網絡—SAN，以獲得更好的特徵表示和特徵相關性學習，來提高單一圖像的超分辨率能力。
解決方法的思路（總結基本原理，指出創新之處）	文中提出一個一個深的二階注意力網絡SAN，以獲得更好的特徵表達和特徵相關性學習。特別地，提出了一個二階通道注意力機制SOCA來進行相關性學習。同時，提出了一個non-locally增強殘差組NLRG來捕獲長距離空間內容信息。
實驗結果及其性能（最好量化）	實驗使用800張DIV2K數據集中的高分辨率圖像作爲訓練集，使用Set5，Set14，BSD100，Urban100和Manga109用做測試的標準基準數據集。將SAN同11個最新的基於CNN的SR方法（SRCNN、FSRCNN、VDSR、LapSRN、MemNet、EDSR、SRMD、NLRN、DBPN、RDN、RCAN）比較，可以發現SAN與RCAN有着相似的結果和性能，而將SAN採用自我集成方法後的SAN+比其他方法的性能都好，在放大因子爲4的條件下，相比18年提出的RCAN，PSNR平均提高0.246dB，SSIM平均提高0.004。
備註（其他方面值得學習或者關注的）	本文對當前各種基於CNN的SR方法做了詳盡地調研，實驗用了多個放大因子，多個數據集下與現今主流CNN-based方法比較，實驗論證和結果分析充分。

題目：Light Field Reconstruction Using Shearlet Transform
作者：Suren Vagharshakyan, Robert Bregovic, and Atanas Gotchev
單位：無
期刊名稱：IEEE Transactions on Pattern Analysis and Machine Intelligence
發表時間：16 January 2017
閱讀時間：2019.12.01

研究領域（想要做什麼，功能，應用或研究背景）	研究一種基於圖像的渲染技術，用於光場重建。
針對的問題（要解決什麼技術或者研究問題）	當今視圖合成基於兩種方法：基於場景深度的估計方法和基於全光函數概念及其光場（LF）近似的方法。密集採樣的LF是場景視覺內容的一種有吸引力的表示形式,其基於第二種方法，但是在許多實際情況下無法使用足夠多的相機對真實場景進行採樣以直接獲得密集採樣的LF，因此必須通過使用IBR技術從給定的稀疏圖像集中生成所需的視圖數。文中提出的基於剪切波的光場重建方法可以很好解決這一問題。
解決方法的思路（總結基本原理，指出創新之處）	文中提出了LF稀疏化和深度分層的概念，目的是開發以EPI表示的LF的有效重建方法。重建試圖利用適當的變換來提供EPI的稀疏表示。文中假設一個好的稀疏變換應該將場景表示與深度層結合在一起，而深度層應該是稀疏的。基於EPI的各向異性是由切變引起的觀察結果，作者提出使用Shearlet變換作爲稀疏變換，並開發了一種在EPI上進行修復的修補技術。
實驗結果及其性能（最好量化）	實驗是在各種不同的數據集（Couch、Pantomime1、 Pantomime2、Teddy、Cones、Truck、Bunny）下進行的，將本文方法與一些基於深度的方法（DERS、VSRS、SGBM）作比較。可以看到，文中方法性能較好。舉例來說，在朗伯場景下，文中方法的PSNR值比SGBM高了1.45dB（其他具體客觀質量評價參數見文中圖表）。而當處理由半透明對象組成的非朗伯場景時，文中方法的效果會更好。
備註（其他方面值得學習或者關注的）	本文對當前各種用於光場重建的方法做了詳盡地調研，詳細介紹了LF和EPI的相關概念，並討論了剪切波變換的性質及構造。實驗方法具有參考價值，實驗論證和結果分析充分。

題目：Meta-SR: A Magnification-Arbitrary Network for Super-Resolution
作者：Xuecai Hu, Haoyuan Mu, Xiangyu Zhang, Zilei Wang, Tieniu Tan, Jian Sun
單位：中國科學技術大學，中國科學院自動化研究所智能感知與計算研究中心，清華大學，曠視科技
期刊名稱：The IEEE Conference on Computer Vision and Pattern Recognition
發表時間：16 June 2019
閱讀時間：2019.12.07

研究領域（想要做什麼，功能，應用或研究背景）	研究一種以任意放大因子實現超分辨率的方法，用於得到想要尺寸（非整數）的高分辨率圖像。
針對的問題（要解決什麼技術或者研究問題）	傳統做法都是把放大倍數不同的超分辨率方法看作是不同的任務，很少會訓練一個任意放大倍數的模型來實現任務，而且，傳統上的放大倍數都只能爲整數，這些缺點給SISR方法的實際應用帶來了很大侷限。文中以元學習爲啓發，提出一種基於元學習的任意放大倍數因子的超分辨率網絡。
解決方法的思路（總結基本原理，指出創新之處）	文中提出的方法稱爲元-超分辨率方法（Meta-SR）。基於元學習，整個模型由兩部分構成：特徵學習模塊和元-比例放大模塊。元-比例放大模塊通過輸入與尺度相關和座標相關的向量序列，來動態預測卷積核的可變權重參數，由此達到單一模型放大任意比例因子的效果。
實驗結果及其性能（最好量化）	實驗的模型訓練都是基於DIV2K數據集，測試選用的是四個標準基準數據集（standard benchmark dataset）：Set14,B100,Manga109,DIV2K。在放大因子取2，3，*4的設置下，文中方法與bicubic、RDN兩種方法作比較，文中方法達到了相對或者平均更優的性能，在DIV2K數據集下，文中方法比RDN的PSNR值平均高了0.02dB，SSIM值平均高了0.00023（具體客觀質量指標比較見表3）。通過實驗計算可知，該方法的（特別是權值預測）的時間極短（Meta-RDN的權值預測時間爲1.5e-2s），給SISR技術的落地增加了巨大的可能。
備註（其他方面值得學習或者關注的）	文中給出了一些降採樣得到縮小圖像的方法，值得借鑑。文中方法較爲新穎，高效且有良好的實時性性能。元學習值得詳細瞭解和關注。