【論文筆記】使用深度學習去除摩爾紋干擾

針對之前數據採集過程中摩爾紋的嚴重干擾，導致OCR對這種圖片檢測與識別精度不高的問題，搜索了大量有關如何消除摩爾紋的資料，包括傳統的圖像處理方法以及深度學習方法，發現這篇論文無論從方法上還是效果上都挺不錯的。

【論文題目】Moiré Photo Restoration Using Multiresolution Convolutional Neural Networks

【摘要】數碼相機和手機使我們能夠方便地記錄珍貴的時刻。雖然數字圖像質量不斷提高，但拍攝高質量的數字屏幕照片仍然具有挑戰性，因爲照片經常被摩爾紋污染，這是相機傳感器的像素網格與設備屏幕之間干擾的結果。摩爾紋會嚴重損害照片的視覺質量。然而，很少有研究旨在解決這個問題。在本文中，我們介紹了一種新的多分辨率完全卷積網絡，用於自動從照片中去除摩爾紋。由於摩爾紋跨越很寬的頻率範圍，我們提出的網絡在計算如何消除每個頻帶內的莫爾條紋之前，對輸入圖像執行非線性多分辨率分析。我們還創建了一個包含100,000多個圖像對的大型基準數據集，用於研究和評估莫爾圖案去除算法。與現有的圖像恢復問題學習架構相比，我們的網絡在此數據集上實現了最先進的性能。

【亮點】多分辨率全卷積網絡模型、創建的大量摩爾紋干擾數據集

一、什麼是摩爾紋？

首先，什麼是摩爾紋？你有沒有這樣的經歷，當你拍攝某些衣物，或者從顯示器拍攝某些照片的過程中，會發現其中某一區域會呈現螺紋狀的干擾。。沒錯，這就是摩爾紋。。

當兩個相似，重複的線條，圓圈或點的圖案與不完美的對齊重疊時，會出現一個新的動態圖案。這種新模式稱爲摩爾紋，可能涉及多種顏色。當兩個原始圖案相對於彼此移動時，摩爾紋改變其元素的形狀和頻率。摩爾紋是大規模干涉圖案。爲了發生這種干涉圖案，兩個原始圖案不能完全對齊。摩爾紋放大了錯位。兩種原始圖案之間最輕微的錯位可能會產生大規模，易於看見的摩爾紋。隨着未對準程度的增加，摩爾紋的頻率也可能增加。要想消除摩爾紋，必須是的屏幕點或條紋的間距小於相機像素尺寸，但這通常是不可能的。

二、使用全卷積網絡

網絡整體結構如下圖所示。圖像輸入爲256*256*3，使用非線性激活函數+卷積核，可以看出：

（1）網絡中不採用池化層，通過步長爲2的卷積核來代替池化操作。

（2）下采樣過程中大量使用3*3卷積核，步長爲1。

（3）在反捲積過程中，增大了圖像分辨率，生成3通道像素圖，最後通過疊加完成輸出。

這樣，粗尺度和細尺度的圖像，經過神經網絡處理，可以去除低頻與高頻分量的摩爾紋。

爲了獲得更好的性能，我們在網絡架構中嵌入了一個多分辨率金字塔。與使用線性濾波構建的傳統圖像金字塔相比，我們的體系結構中的圖像金字塔實際上是使用非線性濾波構建的，因爲非線性激活始終跟隨每個卷積層。我們的金字塔中的非線性允許網絡在下采樣期間更有效地執行。更重要的是，在我們的網絡中，每個分辨率都與一個網絡分支相關聯，其中六個堆疊卷積層保持相同的分辨率。這樣的網絡分支能夠執行復雜的非線性變換（例如去除特定頻帶內的摩爾紋），並且比U-Net中的跳過連接（Skip Connection）更強大。

三、構建數據集

使用ImageNet ISVRC 2012中10000驗證集與5000測試圖像，構建了135000對圖像，使用其中90%進行訓練，剩下10%進行驗證及預測。通過圖像捕獲、圖像對齊等步驟收集所需要的數據。

在圖像收集過程中，使用3種手機以及3種顯示器，組合共有9種，共收集了135000對圖像。

捕獲圖像的方式選擇使用黑色邊框覆蓋圖像（因黑色邊框受到摩爾紋影響小）。爲了增加圖像對齊期間可以使用的角的個數，我們進一步從黑色邊框的每個邊緣拉出一個黑色塊。然後，我們用純白色填充黑色邊框（和塊）外面的其餘部分，這使我們能夠輕鬆檢測捕獲圖像中的黑色邊框。（如下圖a所示）

在圖像採集過程中，我們隨機改變手機和電腦屏幕之間的距離和角度，但是需要注意的是，黑色邊框是必須被採集的。

利用20個點的黑色區域的角，採集圖像。但是由於摩爾紋的影響，可能會出現假角的問題，這時需要利用黑色塊與白色區域的比例關係來矯正黑色區域的20個點。

最後通過手機錄製視頻的方式拍攝顯示器上的圖像，每張圖片的停留時間大約0.3秒。

四、對比實驗效果

由於我們不知道任何解決完全相同問題的現有方法，我們將我們的方法與相關圖像恢復問題中的最新方法進行比較，包括圖像去噪，去模糊，超分辨率和紋理去除。我們選擇VDSR作爲圖像超分辨率算法的代表，DnCNN和IRCNN來自最新的圖像去噪方法，以及RTV和SDF之間的紋理去除技術。爲此，我們數據集中的摩爾紋照片的子集具有一定程度的模糊性，並且去模糊技術可以重建高頻細節。我們還添加了兩種最新的基於圖像去模糊技術的網絡模型：金字塔CNN和IRCNN。此外，由於我們採用分層網絡架構，我們還將網絡與圖像分割神經網絡U-Net進行比較。

因圖像噪聲與摩爾紋的原理不同（摩爾紋主要是由於光的干涉引發的現象），IRCNN對圖像恢復、去噪效果好，但是摩爾紋消除不夠好；金字塔卷積網絡採用線性的固定的高斯濾波，U-net有着良好的統計數據，但是性能較差；紋理去除技術的RTV與SDF，使用大內核會導致圖像過度平滑，小內核根本除不掉。

圖像質量的主要評價指標包括峯值信噪比（Peak Signal to Noise Ratio，PSNR）與結構相似性（Structural Similarity，SSIM）。

峯值信噪比（PSNR）單位是dB，數值越大表示失真越小，PSNR是最普遍和使用最爲廣泛的一種圖像客觀評價指標，然而它是基於對應像素點間的誤差，即基於誤差敏感的圖像質量評價。

結構相似性（SSIM）反映人眼主觀感受，取值範圍[0,1]，值越大，圖像質量越好。

五、模型的泛化性能與侷限性

（1）泛化性能：在使用華爲P9手機拍照拍出來的摩爾紋也能有效去除，且針對現實場景下密級圖案（衣物、高樓）等去除效果好。

（2）侷限性：①對於大的摩爾紋細節無法有效去除。②無法降低多種原因造成的圖像模糊程度（例如運動拍攝、預處理中不完美的圖像對齊、高頻摩爾紋的破壞等）

【參考資料】

[1]論文下載：http://arxiv.org/pdf/1805.02996

[2]兩種常用的全參考圖像質量評價指標：https://blog.csdn.net/zjyruobing/article/details/49908979

【論文筆記】使用深度學習去除摩爾紋干擾

一、什麼是摩爾紋？

二、使用全卷積網絡

三、構建數據集

四、對比實驗效果

五、模型的泛化性能與侷限性

【參考資料】

基於U-Net的眼底圖像血管分割實例

【轉載】使用U-Net分割方法進行癌症診斷（教程翻譯）

【轉載】常見醫療掃描圖像處理步驟

【轉載】【論文筆記】文本識別之CRNN

【每日學習】深度學習相關知識

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結