深度學習任務之概念解釋

原創

2019-09-22 18:13

圖像分類（classification）
圖像分類這一類問題常用與區分不同的物品，圖像分類，顧名思義，是一個輸入圖像，輸出對該圖像內容分類的描述的問題。它是視覺方向的其中一個核心，實際應用廣泛。
特點：一張圖片被賦予一個類別標籤
目標檢測（object detection）
圖像分類是將圖像劃分爲單個類別，通常對應於圖像中最突出的物體。但是現實世界的很多圖片通常包含不只一個物體，此時如果使用圖像分類模型爲圖像分配一個單一標籤其實是非常粗糙的，並不準確。對於這樣的情況，就需要目標檢測模型，目標檢測模型可以識別一張圖片的多個物體，並可以定位出不同物體並且給出邊界框。目標檢測在很多場景有用，如無人駕駛和安防系統。
特點：一張圖片可以給出多個目標的類別，並且用邊界框給出每個目標的位置
語義分割（semantic segmentaion）
語義分割方法在處理圖像時，具體到像素級別，也就是說，該方法會將圖像中每個像素分配到某個對象類別。語義分割是一種典型的計算機視覺問題，其涉及將一些原始數據（例如，平面圖像）作爲輸入並將它們轉換爲具有突出顯示的感興趣區域的掩模。遙感中圖像分類就屬於語義分割。
特點：像素級分類（pixel-level classification）,每個像素被賦予一個類別

實例分割（instance segmentation）
實例分割（上圖右）其實就是目標檢測和語義分割的結合。相對目標檢測的邊界框，實例分割可精確到物體的邊緣；相對語義分割，實例分割需要標註出圖上同一物體的不同個體（羊1，羊2，羊3…）。
目前常用的實例分割算法是Mask R-CNN。
Mask R-CNN 通過向 Faster R-CNN 添加一個分支來進行像素級分割，該分支輸出一個二進制掩碼，該掩碼錶示給定像素是否爲目標對象的一部分：該分支是基於卷積神經網絡特徵映射的全卷積網絡。將給定的卷積神經網絡特徵映射作爲輸入，輸出爲一個矩陣，其中像素屬於該對象的所有位置用 1 表示，其他位置則用 0 表示，這就是二進制掩碼。
一旦生成這些掩碼， Mask R-CNN 將 RoIAlign 與來自 Faster R-CNN 的分類和邊界框相結合，以便進行精確的分割。
特點：目標檢測與語義分割的結合
全景分割（Panoramic segmentation）
全景分割是語義分割和實例分割的結合。跟實例分割不同的是：實例分割只對圖像中的object進行檢測，並對檢測到的object進行分割，而全景分割是對圖中的所有物體包括背景都要進行檢測和分割。

參考：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.