深度学习任务之概念解释

原創

2019-09-22 18:13

图像分类（classification）
图像分类这一类问题常用与区分不同的物品，图像分类，顾名思义，是一个输入图像，输出对该图像内容分类的描述的问题。它是视觉方向的其中一个核心，实际应用广泛。
特点：一张图片被赋予一个类别标签
目标检测（object detection）
图像分类是将图像划分为单个类别，通常对应于图像中最突出的物体。但是现实世界的很多图片通常包含不只一个物体，此时如果使用图像分类模型为图像分配一个单一标签其实是非常粗糙的，并不准确。对于这样的情况，就需要目标检测模型，目标检测模型可以识别一张图片的多个物体，并可以定位出不同物体并且给出边界框。目标检测在很多场景有用，如无人驾驶和安防系统。
特点：一张图片可以给出多个目标的类别，并且用边界框给出每个目标的位置
语义分割（semantic segmentaion）
语义分割方法在处理图像时，具体到像素级别，也就是说，该方法会将图像中每个像素分配到某个对象类别。语义分割是一种典型的计算机视觉问题，其涉及将一些原始数据（例如，平面图像）作为输入并将它们转换为具有突出显示的感兴趣区域的掩模。遥感中图像分类就属于语义分割。
特点：像素级分类（pixel-level classification）,每个像素被赋予一个类别

实例分割（instance segmentation）
实例分割（上图右）其实就是目标检测和语义分割的结合。相对目标检测的边界框，实例分割可精确到物体的边缘；相对语义分割，实例分割需要标注出图上同一物体的不同个体（羊1，羊2，羊3…）。
目前常用的实例分割算法是Mask R-CNN。
Mask R-CNN 通过向 Faster R-CNN 添加一个分支来进行像素级分割，该分支输出一个二进制掩码，该掩码表示给定像素是否为目标对象的一部分：该分支是基于卷积神经网络特征映射的全卷积网络。将给定的卷积神经网络特征映射作为输入，输出为一个矩阵，其中像素属于该对象的所有位置用 1 表示，其他位置则用 0 表示，这就是二进制掩码。
一旦生成这些掩码， Mask R-CNN 将 RoIAlign 与来自 Faster R-CNN 的分类和边界框相结合，以便进行精确的分割。
特点：目标检测与语义分割的结合
全景分割（Panoramic segmentation）
全景分割是语义分割和实例分割的结合。跟实例分割不同的是：实例分割只对图像中的object进行检测，并对检测到的object进行分割，而全景分割是对图中的所有物体包括背景都要进行检测和分割。

参考：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.