CV理论基础(一):概述


计算机视觉

是什么?

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

做什么?

模拟人类视觉能力

  • 识别人、物体、场景
  • 估计立体空间、距离
  • 躲避障碍物进行导航
  • 想象并描述
  • 理解图片

弥补人类视觉缺陷

  • 忽略细节
  • 受幻觉干扰
  • 描述主观
  • 无法长期稳定执行统一任务

与哪些学科有关?

在这里插入图片描述

研究什么?

研究理论和应用

在这里插入图片描述

主要研究内容

  • 研究维度
    语义感知(semantic)、几何属性(Geometry)
  • 研究内容
    在这里插入图片描述
    主要学习语义感知部分

研究挑战

  • 视角变化
  • 光照变化
  • 尺度变化
  • 形态变化
  • 背景混淆干扰
  • 遮挡
  • 类内物体外观差异

怎么学?

学习路线

在这里插入图片描述

具体学习内容

图像预处理

  • 图像显示与存储处理
  • 图像增强的目标
  • 点运算:基于直方图的对比度增强
  • 形态学处理
  • 空间域处理:卷积
  • 卷积的应用(平滑、边缘检测、锐化等)
  • 频率域处理:傅里叶变换、小波变换

图像特征及描述

  • 颜色特征
    量化颜色直方图
    聚类颜色直方图
  • 几何特征
    Edge、Corner、Blob
    边缘、角点、方框
  • 基于关键点的特征描述子
    SIFT、SURF、ORB
  • 其他特征提取
    LBP、Gabor

深度学习之前的方法

  • 图像分割
    基于阈值、边缘、区域、图论
  • 人脸检测
    Haar-like特征 级联分类器
  • 行人检测
    HOG+SVM
    DPM

主要研究问题

识别 分类

人脸、字符、车牌、行为、步态

CNN

在这里插入图片描述

RCNN

在这里插入图片描述

分割

前景分割 语义分割

FCN

在这里插入图片描述

医学生物器官细胞

U-net V-net

视觉 语言

图片描述 图片问答

RNN

在这里插入图片描述

生成

样本分布学习 超分辨率 以图生文 语义分割

GAN

在这里插入图片描述

开源库

Caffe

在这里插入图片描述

Pytorch

在这里插入图片描述

Tensorflow

两个版本:tensorflow tensorflow-gpu
在这里插入图片描述

Keras

在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章