計算機視覺(CV)概述

        最近在學習百度雲智學苑的EasyDL課程時,發現這裏對計算機視覺的簡介挺清晰移動的,結合本人的一些理解,這裏簡述一下計算機視覺。
        計算機視覺是一門研究如何使機器"看"的科學,更進一步的說,就是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺,並進一步做圖形處理,使電腦處理成爲更適合人眼觀察或傳送給儀器檢測的圖像。
        計算機視覺一般涉及到圖像分類、物體檢測、圖像分割和視頻分類。


1. 圖像分類

        圖像分類就是給定一個圖像,正確給出該圖像所屬的類別。一般是監督學習,訓練集和驗證機比例爲3:1或7:3

在這裏插入圖片描述
        下圖爲每年imagenet-1k圖像分類競賽上神經網絡的top-5錯誤率,卷積神經網絡的出現使得圖像分類的精度大大提升:

在這裏插入圖片描述

2. 物體檢測

在這裏插入圖片描述
一般主要有兩種物體檢測思想:

  1. 經典滑動窗口法

        早期,一般使用窗口掃描進行物體識別,計算量大,很難獲得物體的精確定位。思想是:

  • 對輸入圖像進行不同窗口大小的滑窗進行從左往右、從上到下的滑動。
  • 每次滑動時候對當前窗口執行分類器(分類器是事先訓練好的)。如果當前窗口得到較高的分類概率,則認爲檢測到了物體。
  • 對每個不同窗口大小的滑窗都進行檢測後,會得到不同窗口檢測到的物體標記,這些窗口大小會存在重複較高的部分。
  • 最後採用非極大值抑制(Non-Maximum Suppression, NMS)的方法進行篩選。最終,經過NMS篩選後獲得檢測到的物體。
  1. 邊界框預測法
            紅色的框表示標註框, 綠色的框爲模型得到的預測框,白色爲預先設定的錨框,讓預測框以錨框爲基準去逼近標註框,也就是預測框定位的精度可以趨近標註框,可以獲得更好的物體定位,預測框可以輸出一個概率。
    在這裏插入圖片描述
    在這裏插入圖片描述

3. 圖像分割

        圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。與物體檢測不同的是圖像分割對物體進行像素級定位,如下圖所示:

在這裏插入圖片描述
在這裏插入圖片描述

4. 視頻分類

在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章