Attention:
論文解讀的博客原文發佈於個人github論文合集 歡迎關注,有想法歡迎一起討論!私信評論均可。
後面有些語法在CSDN的markdown上不支持,導致顯示bug,我就懶得改了,有需求直接訪問原博客查看。
創建人 | github論文彙總 | 個人博客 | 知乎論文專欄 |
---|---|---|---|
ming71 | paperdaily | chaser | 專欄 |
順便mark我的數據增強代碼工具(持續更新):https://github.com/ming71/toolbox/tree/master/data_augmentation
論文發佈日期:2017.8.4<p/span>
1. Introduction
數據增強普遍認爲是正則化手段,減少過擬合,提高網絡的泛化能力。介紹了一種數據增強方式–cutout。方法很簡單就是圖片上的隨機crop像素塊(如下圖),但是這個思路表達的比這個簡單的方法要深多了(就像第一次看到FPN一樣)會編故事很重要,會洞察簡單操作的背後思想和用途很重要。
此外,有對於這個簡單方法的一些拓展思考,比如分類和檢測的增強等。
2. Cutout
需要注意的是,由於這個是在分類數據集CIFAR-10/100上測試的,必然有很多問題。
-
Operation
在圖像上進行隨機位置和一定大小的patch進行0-mask裁剪。一開始使用裁剪上採樣等變換出複雜輪廓的patch後來發現簡單的固定像素patch就效果不賴,所以直接採用正方形patch。
作者爲了論證講故事豐富,認爲這種操作相當於連續的dropout,只是後者是對神經元操作而且是離散的,而cutout是操作輸入像素而且連續,可以減少噪聲。 -
Motivation
通過patch的遮蓋讓網絡學習到遮擋的特徵。cutout不僅能夠讓模型學習到如何辨別他們,同時還能更好地結合上下文從而關注一些局部次要的特徵。
3. Rethink
一點想法和思考,結合之前的一些論文增強對比實驗。
-
cutout效果不如幾何變換
在CIFAR上效果平平(在之前一篇論文的對比實驗看出,只有仿射的 一般漲點)應該是攝像師偏差的緣故,這裏的CIFAR自然 有這個問題。 -
數據集的問題
收回之前對谷歌論文《Learning Data Augmentation Strategies for Object Detection》的膚淺評價,別人確實揭示了這一點,我當時沒看出來而已。
CIFAR是圖像分類,但是移植到檢測上,還要考慮bbox的問題:裁剪應該在bbox內進行。
- 有bbox,增強要考慮是否交於或者只進行bbox的變化
- 圖像的有用特徵和無用特徵的距離更大
- cutout的尺寸問題
這個涉及對遮擋問題定義的思考。
- patch尺寸首先最好是可變的,這樣對大目標和大遮擋也有效
- 大目標和大遮擋是否有檢測出的必要?如果沒必要,那就按比例只是用小mask就行了;如果有必要,可以學習不同大小gt的不同mask比例進行增強
- 實現方式
patch的mask不全在圖像內的方式相比整個mask必須融入圖像而言,增強能取得的效果更好。作者解釋:這種小patch的增強圖片能保證圖像上更多樣例被看到。如果真是這樣,還有其他解決辦法:1.設置不同size的patch,加入遮擋尺度的適應性 2.設置增強比,不讓增強太多,避免學不到主要特徵
4. Experiment
分類的實驗上cutout沒什麼特別的參考性,可以簡單看看:
通共32像素的圖像,patch居然能達到這麼高。但是檢測任務就比這個比複雜多了,需要考慮遮擋的攝影師偏差,不太好直接統一處理