[CVPR2017] Deep Learning of Human Visual Sensitivity in Image Quality Assessment Framework論文筆記

DeepQA

DeepQA的作者是延世大學Kim Jongyoo,收錄於CVPR 2017

論文概要

Tips: 前幾天聽了人大趙鑫老師和中科院蘭豔豔老師講解怎麼寫論文,趙老師對引文的六句擴充法以及蘭老師的3W2H方法還是收益很深。本質上感覺兩種方法應該是一樣的,我在看論文的過程中就使用了六句擴展法。PPT截圖來自於雷鋒網,如有轉載請註明出處。
圖1 蘭老師3W2H法
圖2 趙老師六句擴充法
按照六句擴充法總結了文章大體內容:
(1)圖像質量評估是預測感知質量,在過程評估、圖像和視頻編碼、監控等圖像處理領域有着廣泛應用。人體是圖像和視頻的最終接收者,因此在圖像質量評估的度量應該考慮人體視覺系統,尤其是視覺敏感度。
(2)傳統的全參考圖像質量評估(Full-Reference Image Quality Assessment, FR-IQA)方法根據心理視覺科學(Psychological Vision Science)對人體視覺系統進行建模。這些方法計算複雜度高,並且建立的模型需要符合事先定義的條件,泛化性能一般。
(3)針對上述問題,隨着深度學習及CNN技術的發展,Kim等提出了基於CNN結構的圖像質量評估算法(DeepQA),該算法可以產生視覺敏感度分佈權重圖,每個像素的權重值代表在視覺系統中的重要程度。
(4)文中提出的算法不需要使用任何心理視覺科學的先驗知識,僅依賴於數據,包括扭曲的圖像,客觀評價錯誤圖及ground-truth主觀評價圖。
(5)實驗結果表明DeepQA預測的視覺敏感度分佈與人體視覺系統有相似的結果。並且在五個數據集上均表現出了SOTA水平。

網絡結構與算法流程

圖3 DeepQA網絡結構
DeepQA網絡結構如圖3所示,算法具體流程如下:

  1. 扭曲圖像和參考圖像的歸一化結果按照公式
    e=log(1/((I^rI^d)2+ε/2552))log(2552/ε) e=\frac{log\left(1/\left(\left(\widehat{I}_{r}-\widehat{I}_{d}\right)^2+\varepsilon /255^2\right)\right)}{log\left(255^2/\varepsilon\right)}
    可以得出客觀評價錯誤圖(objective error map)。
  2. 將扭曲圖像和客觀評價錯誤圖同時輸入網絡計算出預測的視覺敏感度圖(sensitivity map).
  3. 將預測的敏感度圖和下采樣1/4的客觀評價錯誤圖進行點乘求和計算得到感知錯誤圖(perceptual error map)和對應的分數μP\mu_{P}
  4. μP\mu_{P}經過兩個全連接層得到最終的預測分數,該分數與ground-truth主觀分數的距離爲網絡模型的損失函數。
  5. 模型引入總變差(total variation, TV)正則化項,用於懲罰圖像中的高頻分量。

把Summary轉成英文的時候畫了這樣的Algorithm表格,可以作爲參考:
圖4 DeepQA算法流程

實驗結果

在五個數據集上均達到了SOTA的水平,具體結果如下表所示。
圖5 結果對比

摘要重寫與覆盤

蘭老師和趙老師都說覆盤和對比很重要,一個最簡單的方法提升寫作是把寫好的文章給老師看,讓老師改,我已經畢業了,所以沒有這方面的資源,還在學校的同學一定要好好把握每次老師給改的機會(這句話也是兩位老師的原話)。趙老師還說,比較廉價的學習方法就是重寫摘要,然後比對,達到覆盤的效果。
這次是我第一次重寫摘要,問題還是挺多的,也希望各位大佬積極指正。我把重寫的和原文貼在下面了,左邊是我重寫的版本,右邊是原文:
在這裏插入圖片描述
覆盤:

  1. 背景介紹部分
    (1) 連詞用的比較平淡,我用的是so,原文用的是since
    (2) IQA should consider …太中文化,原文用的是image quality metrics should be designed from …
    (3) FR-IQA methods model HVS 這句也太中文,原文寫的是 a number of FR-IQA methods adopted various vomputational models …
    (4) However開頭的一句在摘要裏還是太細節化了。在原文裏沒有介紹conventional方法存在的問題,而是在後面提出DeepQA的時候說明了提出方法的優勢,也等於變相地說明原始方法的問題
  2. 文中方法部分
    (1) 我使用的是proposed,時態有問題,沒有統一
    (2) 專用名詞簡寫有問題,比如CNN在我的重寫版本里沒有說明是什麼,而DeepQA也沒有交代清楚具體簡寫。
    (3) 感覺任務說的太具體化了,weighted map of the visual snesitivity,而原文裏是the behavior of HVS,摘要還是要通俗易懂一點比較好。還有就是對data distribution的三個名詞介紹,在摘要裏引入了太多的新概念。
    (4) 當時寫的時候就覺得用does not不好,但也沒想到怎麼改,原文裏是用的without
  3. 實驗結論部分
    (1) 這邊有個邏輯仔細想想沒有原文寫得好,the predicted visual sensitivity maps are close to the HVS, 而原文裏是the predicted visual sensitivity maps agree with the human subjective opinions.

下一篇論文計劃

Circle Loss, CVPR2020

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章