【論文筆記】使用深度學習去除摩爾紋干擾

針對之前數據採集過程中摩爾紋的嚴重干擾,導致OCR對這種圖片檢測與識別精度不高的問題,搜索了大量有關如何消除摩爾紋的資料,包括傳統的圖像處理方法以及深度學習方法,發現這篇論文無論從方法上還是效果上都挺不錯的。

 

【論文題目】Moiré Photo Restoration Using Multiresolution Convolutional Neural Networks

【摘要】數碼相機和手機使我們能夠方便地記錄珍貴的時刻。雖然數字圖像質量不斷提高,但拍攝高質量的數字屏幕照片仍然具有挑戰性,因爲照片經常被摩爾紋污染,這是相機傳感器的像素網格與設備屏幕之間干擾的結果。摩爾紋會嚴重損害照片的視覺質量。然而,很少有研究旨在解決這個問題。在本文中,我們介紹了一種新的多分辨率完全卷積網絡,用於自動從照片中去除摩爾紋。由於摩爾紋跨越很寬的頻率範圍,我們提出的網絡在計算如何消除每個頻帶內的莫爾條紋之前,對輸入圖像執行非線性多分辨率分析。我們還創建了一個包含100,000多個圖像對的大型基準數據集,用於研究和評估莫爾圖案去除算法。與現有的圖像恢復問題學習架構相比,我們的網絡在此數據集上實現了最先進的性能。

【亮點】多分辨率全卷積網絡模型、創建的大量摩爾紋干擾數據集

 

一、什麼是摩爾紋?

首先,什麼是摩爾紋?你有沒有這樣的經歷,當你拍攝某些衣物,或者從顯示器拍攝某些照片的過程中,會發現其中某一區域會呈現螺紋狀的干擾。。沒錯,這就是摩爾紋。。

 

當兩個相似,重複的線條,圓圈或點的圖案與不完美的對齊重疊時,會出現一個新的動態圖案。這種新模式稱爲摩爾紋,可能涉及多種顏色。當兩個原始圖案相對於彼此移動時,摩爾紋改變其元素的形狀和頻率。摩爾紋是大規模干涉圖案。爲了發生這種干涉圖案,兩個原始圖案不能完全對齊。摩爾紋放大了錯位。兩種原始圖案之間最輕微的錯位可能會產生大規模,易於看見的摩爾紋。隨着未對準程度的增加,摩爾紋的頻率也可能增加。要想消除摩爾紋,必須是的屏幕點或條紋的間距小於相機像素尺寸,但這通常是不可能的。

 

二、使用全卷積網絡

網絡整體結構如下圖所示。圖像輸入爲256*256*3,使用非線性激活函數+卷積核,可以看出:

(1)網絡中不採用池化層,通過步長爲2的卷積核來代替池化操作。

(2)下采樣過程中大量使用3*3卷積核,步長爲1。

(3)在反捲積過程中,增大了圖像分辨率,生成3通道像素圖,最後通過疊加完成輸出。

這樣,粗尺度和細尺度的圖像,經過神經網絡處理,可以去除低頻與高頻分量的摩爾紋。

爲了獲得更好的性能,我們在網絡架構中嵌入了一個多分辨率金字塔。 與使用線性濾波構建的傳統圖像金字塔相比,我們的體系結構中的圖像金字塔實際上是使用非線性濾波構建的,因爲非線性激活始終跟隨每個卷積層。 我們的金字塔中的非線性允許網絡在下采樣期間更有效地執行。 更重要的是,在我們的網絡中,每個分辨率都與一個網絡分支相關聯,其中六個堆疊卷積層保持相同的分辨率。 這樣的網絡分支能夠執行復雜的非線性變換(例如去除特定頻帶內的摩爾紋),並且比U-Net中的跳過連接(Skip Connection)更強大。

 

三、構建數據集

使用ImageNet ISVRC 2012中10000驗證集與5000測試圖像,構建了135000對圖像,使用其中90%進行訓練,剩下10%進行驗證及預測。通過圖像捕獲、圖像對齊等步驟收集所需要的數據。

在圖像收集過程中,使用3種手機以及3種顯示器,組合共有9種,共收集了135000對圖像。

捕獲圖像的方式選擇使用黑色邊框覆蓋圖像(因黑色邊框受到摩爾紋影響小)。爲了增加圖像對齊期間可以使用的角的個數,我們進一步從黑色邊框的每個邊緣拉出一個黑色塊。然後,我們用純白色填充黑色邊框(和塊)外面的其餘部分,這使我們能夠輕鬆檢測捕獲圖像中的黑色邊框。(如下圖a所示)

在圖像採集過程中,我們隨機改變手機和電腦屏幕之間的距離和角度,但是需要注意的是,黑色邊框是必須被採集的。

利用20個點的黑色區域的角,採集圖像。但是由於摩爾紋的影響,可能會出現假角的問題,這時需要利用黑色塊與白色區域的比例關係來矯正黑色區域的20個點。

最後通過手機錄製視頻的方式拍攝顯示器上的圖像,每張圖片的停留時間大約0.3秒。

 

四、對比實驗效果

由於我們不知道任何解決完全相同問題的現有方法,我們將我們的方法與相關圖像恢復問題中的最新方法進行比較,包括圖像去噪,去模糊,超分辨率和紋理去除。我們選擇VDSR作爲圖像超分辨率算法的代表,DnCNN和IRCNN來自最新的圖像去噪方法,以及RTV和SDF之間的紋理去除技術。爲此,我們數據集中的摩爾紋照片的子集具有一定程度的模糊性,並且去模糊技術可以重建高頻細節。我們還添加了兩種最新的基於圖像去模糊技術的網絡模型:金字塔CNN和IRCNN。此外,由於我們採用分層網絡架構,我們還將網絡與圖像分割神經網絡U-Net進行比較。

因圖像噪聲與摩爾紋的原理不同(摩爾紋主要是由於光的干涉引發的現象),IRCNN對圖像恢復、去噪效果好,但是摩爾紋消除不夠好;金字塔卷積網絡採用線性的固定的高斯濾波,U-net有着良好的統計數據,但是性能較差;紋理去除技術的RTV與SDF,使用大內核會導致圖像過度平滑,小內核根本除不掉。

圖像質量的主要評價指標包括峯值信噪比(Peak Signal to Noise Ratio,PSNR)與結構相似性(Structural Similarity,SSIM)。

峯值信噪比(PSNR)單位是dB,數值越大表示失真越小,PSNR是最普遍和使用最爲廣泛的一種圖像客觀評價指標,然而它是基於對應像素點間的誤差,即基於誤差敏感的圖像質量評價。

結構相似性(SSIM)反映人眼主觀感受,取值範圍[0,1],值越大,圖像質量越好。

 

五、模型的泛化性能與侷限性

(1)泛化性能:在使用華爲P9手機拍照拍出來的摩爾紋也能有效去除,且針對現實場景下密級圖案(衣物、高樓)等去除效果好。

(2)侷限性:①對於大的摩爾紋細節無法有效去除。②無法降低多種原因造成的圖像模糊程度(例如運動拍攝、預處理中不完美的圖像對齊、高頻摩爾紋的破壞等)

 

【參考資料】

[1]論文下載:http://arxiv.org/pdf/1805.02996

[2]兩種常用的全參考圖像質量評價指標:https://blog.csdn.net/zjyruobing/article/details/49908979

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章