計算機視覺理論基礎(一)
計算機視覺
是什麼?
計算機視覺是一門研究如何使機器“看”的科學,更進一步的說,就是是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成爲更適合人眼觀察或傳送給儀器檢測的圖像。作爲一個科學學科,計算機視覺研究相關的理論和技術,試圖建立能夠從圖像或者多維數據中獲取‘信息’的人工智能系統。這裏所 指的信息指Shannon定義的,可以用來幫助做一個“決定”的信息。因爲感知可以看作是從感官信號中提 取信息,所以計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中“感知”的科學。
做什麼?
模擬人類視覺能力
- 識別人、物體、場景
- 估計立體空間、距離
- 躲避障礙物進行導航
- 想象並描述
- 理解圖片
彌補人類視覺缺陷
- 忽略細節
- 受幻覺干擾
- 描述主觀
- 無法長期穩定執行統一任務
與哪些學科有關?
研究什麼?
研究理論和應用
主要研究內容
- 研究維度
語義感知(semantic)、幾何屬性(Geometry) - 研究內容
主要學習語義感知部分
研究挑戰
- 視角變化
- 光照變化
- 尺度變化
- 形態變化
- 背景混淆干擾
- 遮擋
- 類內物體外觀差異
怎麼學?
學習路線
具體學習內容
圖像預處理
- 圖像顯示與存儲處理
- 圖像增強的目標
- 點運算:基於直方圖的對比度增強
- 形態學處理
- 空間域處理:卷積
- 卷積的應用(平滑、邊緣檢測、銳化等)
- 頻率域處理:傅里葉變換、小波變換
圖像特徵及描述
- 顏色特徵
量化顏色直方圖
聚類顏色直方圖 - 幾何特徵
Edge、Corner、Blob
邊緣、角點、方框 - 基於關鍵點的特徵描述子
SIFT、SURF、ORB - 其他特徵提取
LBP、Gabor
深度學習之前的方法
- 圖像分割
基於閾值、邊緣、區域、圖論 - 人臉檢測
Haar-like特徵 級聯分類器 - 行人檢測
HOG+SVM
DPM
主要研究問題
識別 分類
人臉、字符、車牌、行爲、步態
CNN
RCNN
分割
前景分割 語義分割
FCN
醫學生物器官細胞
U-net V-net
視覺 語言
圖片描述 圖片問答
RNN
生成
樣本分佈學習 超分辨率 以圖生文 語義分割
GAN
開源庫
Caffe
Pytorch
Tensorflow
兩個版本:tensorflow tensorflow-gpu