計算機視覺（CV）概述

原創

2020-05-10 23:24

最近在學習百度雲智學苑的EasyDL課程時，發現這裏對計算機視覺的簡介挺清晰移動的，結合本人的一些理解，這裏簡述一下計算機視覺。
計算機視覺是一門研究如何使機器"看"的科學，更進一步的說，就是指用攝影機和電腦代替人眼對目標進行識別、跟蹤和測量等機器視覺，並進一步做圖形處理，使電腦處理成爲更適合人眼觀察或傳送給儀器檢測的圖像。
計算機視覺一般涉及到圖像分類、物體檢測、圖像分割和視頻分類。

1. 圖像分類

圖像分類就是給定一個圖像，正確給出該圖像所屬的類別。一般是監督學習，訓練集和驗證機比例爲3:1或7:3

下圖爲每年imagenet-1k圖像分類競賽上神經網絡的top-5錯誤率，卷積神經網絡的出現使得圖像分類的精度大大提升：

2. 物體檢測

一般主要有兩種物體檢測思想：

經典滑動窗口法

早期，一般使用窗口掃描進行物體識別，計算量大，很難獲得物體的精確定位。思想是：

對輸入圖像進行不同窗口大小的滑窗進行從左往右、從上到下的滑動。
每次滑動時候對當前窗口執行分類器(分類器是事先訓練好的)。如果當前窗口得到較高的分類概率，則認爲檢測到了物體。
對每個不同窗口大小的滑窗都進行檢測後，會得到不同窗口檢測到的物體標記，這些窗口大小會存在重複較高的部分。
最後採用非極大值抑制(Non-Maximum Suppression, NMS)的方法進行篩選。最終，經過NMS篩選後獲得檢測到的物體。

邊界框預測法
紅色的框表示標註框, 綠色的框爲模型得到的預測框，白色爲預先設定的錨框，讓預測框以錨框爲基準去逼近標註框，也就是預測框定位的精度可以趨近標註框，可以獲得更好的物體定位，預測框可以輸出一個概率。

3. 圖像分割

圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。與物體檢測不同的是圖像分割對物體進行像素級定位，如下圖所示：

4. 視頻分類

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

計算機視覺（CV）概述

目錄

1. 圖像分類

2. 物體檢測

3. 圖像分割

4. 視頻分類

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

Win和Ubuntu下查看GPU和CPU使用情況

L*ReLU: Piece-wise Linear Activation Functions for Deep Fine-grained Visual Categorization

Keras報錯AttributeError ’NoneType‘ object has no attribute ‘_inbound_nodes’

解決： test.py: error: the following arguments are required:XX

pip 不是內部或外部命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結