CV理论基础（一）：概述

计算机视觉

是什么？

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所指的信息指Shannon定义的，可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

做什么？

模拟人类视觉能力

识别人、物体、场景
估计立体空间、距离
躲避障碍物进行导航
想象并描述
理解图片

弥补人类视觉缺陷

忽略细节
受幻觉干扰
描述主观
无法长期稳定执行统一任务

与哪些学科有关？

研究什么？

研究理论和应用

主要研究内容

研究维度
语义感知（semantic）、几何属性（Geometry）
研究内容

主要学习语义感知部分

研究挑战

视角变化
光照变化
尺度变化
形态变化
背景混淆干扰
遮挡
类内物体外观差异

怎么学？

学习路线

具体学习内容

图像预处理

图像显示与存储处理
图像增强的目标
点运算：基于直方图的对比度增强
形态学处理
空间域处理：卷积
卷积的应用（平滑、边缘检测、锐化等）
频率域处理：傅里叶变换、小波变换

图像特征及描述

颜色特征
量化颜色直方图
聚类颜色直方图
几何特征
Edge、Corner、Blob
边缘、角点、方框
基于关键点的特征描述子
SIFT、SURF、ORB
其他特征提取
LBP、Gabor

深度学习之前的方法

图像分割
基于阈值、边缘、区域、图论
人脸检测
Haar-like特征级联分类器
行人检测
HOG+SVM
DPM

主要研究问题

识别分类

人脸、字符、车牌、行为、步态

CNN

RCNN

分割

前景分割语义分割

FCN

医学生物器官细胞

U-net V-net

视觉语言

图片描述图片问答

RNN

生成

样本分布学习超分辨率以图生文语义分割

GAN

开源库

Caffe

Pytorch

Tensorflow

两个版本：tensorflow tensorflow-gpu

Keras

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CV理论基础（一）：概述

计算机视觉理论基础（一）

是什么？

做什么？

与哪些学科有关？

研究什么？

研究理论和应用

主要研究内容

研究挑战

怎么学？

学习路线

具体学习内容

图像预处理

图像特征及描述

深度学习之前的方法

主要研究问题

识别分类

CNN

RCNN

分割

FCN

医学生物器官细胞

视觉语言

RNN

生成

GAN

开源库

Caffe

Pytorch

Tensorflow

Keras

Wireshark 安装+使用（一）

python數據科學（八）：pandas基礎—— 丟棄、apply applymap、唯一性

數據可視化基礎（八）：示例——函數積分圖、散點條形圖

python基礎（二十）：excel 讀取

python數據科學（三）：ipython

python基礎（十九）：JSON 讀取

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

CV理论基础（一）：概述

计算机视觉理论基础（一）

是什么？

做什么？

与哪些学科有关？

研究什么？

研究理论和应用

主要研究内容

研究挑战

怎么学？

学习路线

具体学习内容

图像预处理

图像特征及描述

深度学习之前的方法

主要研究问题

识别 分类

CNN

RCNN

分割

FCN

医学生物器官细胞

视觉 语言

RNN

生成

GAN

开源库

Caffe

Pytorch

Tensorflow

Keras

识别分类

视觉语言