在圖像處理領域,圖像的分割主要考慮像素灰度的變化,區分不同的前後景。圖像的語義分割則不僅是區分每個像素的前後景,更需要將其所屬類別預測出來.CNN做圖像分類甚至做目標檢測的效果已經被證明並廣泛應用,圖像語義分割本質上也可以認爲是稠密的目標識別(需要預測每個像素點的類別).
傳統的基於卷積神經網絡的語義分割方法是:將像素周圍一個小區域作爲CNN輸入,做訓練和預測。這樣做有3個問題:
- 像素區域的大小如何確定
- 存儲及計算量非常大
- 像素區域的大小限制了感受野的大小,從而只能提取一些局部特徵
基於此,Berkeley團隊提出 Fully Convolutional Networks(FCN)方法用於圖像語義分割,將圖像級別的分類擴展到像素級別的分類。