深度学习(十五):目标定位 Object Localization

这是一系列深度学习的介绍,本文不会涉及公式推导,主要是一些算法思想的随笔记录。
适用人群:深度学习初学者,转AI的开发人员。
编程语言:Python
参考资料:吴恩达老师的深度学习系列视频
吴恩达老师深度学习笔记整理
深度学习500问
笔记下载:深度学习个人笔记完整版

图像分类

图片分类问题已经并不陌生了,例如,输入一张图片到多层卷积神经网络,它会输出一个特征向量,并反馈给softmax单元来预测图片类型。

目标定位 Object Localization

定位分类问题:不仅要用算法判断图片中是不是一辆汽车,还要在图片中标记出它的位置,位置一般用**边框(bounding box)**标记。通常只有一个较大的对象位于图片中间位置,我们要对它进行识别和定位。

对象检测问题:图片可以含有多个对象,甚至单张图片中会有多个不同分类的对象。

因此,图片分类的思路可以帮助学习分类定位,而对象定位的思路又有助于学习对象检测。

  • 目标分类 Object Classification:是什么?
    分类
  • 目标定位 Object Localization:在哪里?是什么?(单个目标)

定位

  • 目标检测 Object Detection:在哪里?分别是什么?(多个目标)
    检测

示例 Example

如果你正在构建汽车自动驾驶系统,那么对象可能包括以下几类:行人、汽车、摩托车和背景,这意味着图片中不含有前三种对象,也就是说图片中没有行人、汽车和摩托车,输出结果会是背景对象,这四个分类就是softmax函数可能输出的结果。
在这里插入图片描述
这有四个分类,神经网络输出的是这四个数字(标记为bx,by,bw和bh,这四个数字是被检测对象的边界框的参数化表示)和一个分类标签,或分类标签出现的概率。目标标签的定义如下:
在这里插入图片描述
它是一个向量,第一个组件Pc表示是否含有对象,如果对象属于前三类(行人、汽车、摩托车),则Pc=1,如果是背景,则图片中没有要检测的对象,则Pc=0。我们可以这样理解Pc,它表示被检测对象属于某一分类的概率,背景分类除外。

损失函数的定义,采用平方误差策略,损失值等于每个元素相应差值的平方和:
在这里插入图片描述

特征点检测 Landmark Detection

神经网络可以通过输出图片上特征点的座标来实现对目标特征的识别。
在这里插入图片描述

如上图2与3,分别是脸部特征检测、人体姿态检测,这些前期都需要人工辛苦地标注出来,真是人工智能,没有人工,哪来的智能,哈哈。

对于脸部特征检测,比如微笑打分,就是借助这个原理,再者给头像添加圣诞帽等等操作。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章