CV理論基礎（一）：概述

計算機視覺

是什麼？

計算機視覺是一門研究如何使機器“看”的科學，更進一步的說，就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺，並進一步做圖形處理，使電腦處理成爲更適合人眼觀察或傳送給儀器檢測的圖像。作爲一個科學學科，計算機視覺研究相關的理論和技術，試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能系統。這裏所指的信息指Shannon定義的，可以用來幫助做一個“決定”的信息。因爲感知可以看作是從感官信號中提取信息，所以計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中“感知”的科學。

做什麼？

模擬人類視覺能力

識別人、物體、場景
估計立體空間、距離
躲避障礙物進行導航
想象並描述
理解圖片

彌補人類視覺缺陷

忽略細節
受幻覺干擾
描述主觀
無法長期穩定執行統一任務

與哪些學科有關？

研究什麼？

研究理論和應用

主要研究內容

研究維度
語義感知（semantic）、幾何屬性（Geometry）
研究內容

主要學習語義感知部分

研究挑戰

視角變化
光照變化
尺度變化
形態變化
背景混淆干擾
遮擋
類內物體外觀差異

怎麼學？

學習路線

具體學習內容

圖像預處理

圖像顯示與存儲處理
圖像增強的目標
點運算：基於直方圖的對比度增強
形態學處理
空間域處理：卷積
卷積的應用（平滑、邊緣檢測、銳化等）
頻率域處理：傅里葉變換、小波變換

圖像特徵及描述

顏色特徵
量化顏色直方圖
聚類顏色直方圖
幾何特徵
Edge、Corner、Blob
邊緣、角點、方框
基於關鍵點的特徵描述子
SIFT、SURF、ORB
其他特徵提取
LBP、Gabor

深度學習之前的方法

圖像分割
基於閾值、邊緣、區域、圖論
人臉檢測
Haar-like特徵級聯分類器
行人檢測
HOG+SVM
DPM

主要研究問題

識別分類

人臉、字符、車牌、行爲、步態

CNN

RCNN

分割

前景分割語義分割

FCN

醫學生物器官細胞

U-net V-net

視覺語言

圖片描述圖片問答

RNN

生成

樣本分佈學習超分辨率以圖生文語義分割

GAN

開源庫

Caffe

Pytorch

Tensorflow

兩個版本：tensorflow tensorflow-gpu

Keras

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CV理論基礎（一）：概述

計算機視覺理論基礎（一）

是什麼？

做什麼？

與哪些學科有關？

研究什麼？

研究理論和應用

主要研究內容

研究挑戰

怎麼學？

學習路線

具體學習內容

圖像預處理

圖像特徵及描述

深度學習之前的方法

主要研究問題

識別分類

CNN

RCNN

分割

FCN

醫學生物器官細胞

視覺語言

RNN

生成

GAN

開源庫

Caffe

Pytorch

Tensorflow

Keras

python數據科學（八）：pandas基礎—— 丟棄、apply applymap、唯一性

數據可視化基礎（八）：示例——函數積分圖、散點條形圖

python基礎（二十）：excel 讀取

python數據科學（三）：ipython

python基礎（十九）：JSON 讀取

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

CV理論基礎（一）：概述

計算機視覺理論基礎（一）

是什麼？

做什麼？

與哪些學科有關？

研究什麼？

研究理論和應用

主要研究內容

研究挑戰

怎麼學？

學習路線

具體學習內容

圖像預處理

圖像特徵及描述

深度學習之前的方法

主要研究問題

識別 分類

CNN

RCNN

分割

FCN

醫學生物器官細胞

視覺 語言

RNN

生成

GAN

開源庫

Caffe

Pytorch

Tensorflow

Keras

識別分類

視覺語言