计算机视觉理论基础(一)
计算机视觉
是什么?
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。
做什么?
模拟人类视觉能力
- 识别人、物体、场景
- 估计立体空间、距离
- 躲避障碍物进行导航
- 想象并描述
- 理解图片
弥补人类视觉缺陷
- 忽略细节
- 受幻觉干扰
- 描述主观
- 无法长期稳定执行统一任务
与哪些学科有关?
研究什么?
研究理论和应用
主要研究内容
- 研究维度
语义感知(semantic)、几何属性(Geometry) - 研究内容
主要学习语义感知部分
研究挑战
- 视角变化
- 光照变化
- 尺度变化
- 形态变化
- 背景混淆干扰
- 遮挡
- 类内物体外观差异
怎么学?
学习路线
具体学习内容
图像预处理
- 图像显示与存储处理
- 图像增强的目标
- 点运算:基于直方图的对比度增强
- 形态学处理
- 空间域处理:卷积
- 卷积的应用(平滑、边缘检测、锐化等)
- 频率域处理:傅里叶变换、小波变换
图像特征及描述
- 颜色特征
量化颜色直方图
聚类颜色直方图 - 几何特征
Edge、Corner、Blob
边缘、角点、方框 - 基于关键点的特征描述子
SIFT、SURF、ORB - 其他特征提取
LBP、Gabor
深度学习之前的方法
- 图像分割
基于阈值、边缘、区域、图论 - 人脸检测
Haar-like特征 级联分类器 - 行人检测
HOG+SVM
DPM
主要研究问题
识别 分类
人脸、字符、车牌、行为、步态
CNN
RCNN
分割
前景分割 语义分割
FCN
医学生物器官细胞
U-net V-net
视觉 语言
图片描述 图片问答
RNN
生成
样本分布学习 超分辨率 以图生文 语义分割
GAN
开源库
Caffe
Pytorch
Tensorflow
两个版本:tensorflow tensorflow-gpu