計算機視覺入門(包含論文學習網址)

閱讀了微信公衆號的一些文章並總結。

谷歌學術鏡像:http://scholar.hedasudi.com/
學習網址:(可以改網址的年代,可以先觀看視頻,再看PPT和文章)
http://kesen.realtimerendering.com/siga2019Papers.htm
http://kesen.realtimerendering.com/sca2019Papers.htm
http://kesen.realtimerendering.com/eg2009Papers.htm
http://kesen.realtimerendering.com/egsr2019Papers.htm
http://kesen.realtimerendering.com/

20191119

/1 語義分割(同一類像素歸爲一類);實例分割(更細,如不同的人歸爲不同的類)
patch classification 切成塊給神經網絡模型,使用全連接層對像素分類
FCN 全卷積神經網絡 刪除了全連接層,用卷積分類 pooling擴大感受野,整合上下文context信息
encoder-decoder(基於FCN)  中間的shortcut connection(捷徑連接/跨層連接 eg:U-net)
空洞卷積 代替了pooling,不僅擴大感受野,還增強分辨率
條件隨機場(CRFs) 後處理(DeepLab系列文章)
方法:FCN、SegNet、Dilated Convolutions、DeepLab v1&v2、DefineNet、
PSPNet、Large Kernel Matters、DeepLab v3

/2 自然語言處理(NLP)輸入:書面/口頭形式 閱讀和理解語言
方向大致有:句法語義分析 信息抽取 文本挖掘 機器翻譯 信息檢索 問答 對話

/3 傅里葉變換->Gabor變換->小波變換
Gabor變換:FT只能全局(整個時間域),爲了提取局部信息,引入時間局部化的窗函數(高斯函數);
把信號劃分爲多個小的時間間隔,用FT分析,以確定信號在該間隔內存在頻率
處理方法:對f(t)加一個滑動窗,再進行FT

20191120
/2 卷積的深層含義 所謂兩個函數的卷積,本質上就是先將一個函數翻轉,然後進行滑動疊加。在連續情況下,疊加指的是對兩個函數的乘積求積分,在離散情況下就是加權求和,爲簡單起見就統一稱爲疊加。
/3 https://github.com/extreme-assistant/cvpr2019  CVPR2019論文盤點等
20191123
/1 OI Wiki :在這裏獲取關於 編程競賽 (competitive programming) 有趣又實用的知識,我們爲大家準備了競賽中的基礎知識、常見題型、解題思路以及常用工具等內容,幫助大家更快速深入地學習編程競賽。
/2 訓練GANs一年我學到的10個教訓
GANs訓練穩定性很差,StyleGAN和BigGAN可以。提供了一些有建設性意見的方法
https://arxiv.org/abs/1811.09567(GAN的損失函數挑選)
 

20191127

1.深度學習入門一

學習:一個系統通過某個過程改變性能。

機器學習:對於計算機系統而言,通過運用數據和某種特定的方法來提升機器系統的性能。

學習的四個象限:可/不可統計;可/不可推理。

機器學習就是從可統計到不可統計;神經網絡是由可推理到不可推理。

機器學習方法論:

/1 端到端:輸入原始數據,輸出最終目標,中間過程不可知。如像素到指令。

深度學習:將機器學習時抓取特徵的麻煩轉化爲特徵表示學習,但需要大數據。即大數據+複雜系統。
2.深度學習入門二
人類”奇點“時刻會臨近,即人類與其他物種(物體)的相互融合;人工智能:硅基智能與碳基智能兼容。
深度學習是高度數據依賴型的算法,性能通常隨着數據量的增加而不斷增強,即它的擴展性顯著優於傳統的機器學習算法。
如果訓練數據較少,則不一定。作爲複雜系統代表的深度學習算法,只要數據量足夠多,才能通過訓練,在深度神經網絡中,”恰如其分“的將把蘊含在數據中的複雜模式表徵出來。
機器學習、深度學習,都是面對過去,找到規律(描述性分析);面向未來,找到趨勢(預測性分析)。

即歸納、演繹。
機器學習就是在數據對象中通過統計/推理的方法,尋找一個適用特定輸入和預期輸出的功能函數。
機器學習就是做好:尋找一系列函數實現預期功能(建模),尋找合理評價標準(評價),找到性能最佳的函數(優化)。

20191129
1. CV入門一:opencv及計算機視覺定義
計算機視覺:用計算機代替人眼去對目標識別、分類、理解等行爲。
機器學習領域:計算機視覺、自然語言處理、語音識別。
計算機視覺領域:目標檢測、人臉識別、視頻分割等。
傳統的手工提取特徵:HOG;HOF;SIFT;------玻爾茲曼機;人工神經網絡;----卷積神經網路。
入門基礎:python+opencv。
圖像的基礎是像素。

2. CV入門二:python和圖像處理
學習工具:TensorFlow---Python
基本數據類型:數值型、布爾型、字符型。
基本容器:列表、字典、元組
Numpy:基於高維向量對象。
Scipy:基於numpy。
**圖像處理知識框架:
像素操作、圖像變換、像素統計、色彩空間、卷積圖像處理、形態學處理、圖像分割、特徵提取、二值圖像(圖像分割)、對象識別與匹配

3.CV進階三:圖像處理基本算法、圖像處理實踐
圖像處理基本算法:
分辨率降低、單色處理、濾波處理
圖像處理實踐:
根據卷積核的不同,效果不同。可以實現不變、銳化、邊緣檢測、高斯模糊、浮雕....

4.CV進階四:灰度處理
逆反;對比度處理:增大、減小、改善、增強;局部濾波處理;直方圖;二值化方法步驟...

5.深度學習的感受野
卷積神經網絡的每一層輸出的特徵圖上的像素點在原圖像映射的區域大小。

第一層卷積層的輸出特徵圖像素的感受野的大小就等於等於卷積層濾波器的大小;
然後其繼續進行前向傳播,這樣的話,後面深層的卷積層感受野大小就和之前所有網絡層的濾波器大小和步長有關係了,在計算的時候,忽略圖像Padding的大小。
網絡中的每一個層有一個strides,該strides是之前所有層stride的乘積。
感受野大小的計算採用從深層到前層的方式計算, 即先計算最深層在前一層上的感受野,然後逐漸反饋到第一層。
查資料知,感受野大小的計算採用從深層到前層的方式計算, 即先計算最深層在前一層上的感受野,然後逐漸反饋到第一層。

/2 分爲治之:(還原論、追本溯源)一個複雜系統由許多簡單系統疊加而成:線性系統。

20181130

1.深度學習入門三
人工神經網絡ANNs:一種模仿動物神經網絡行爲特徵,進行分佈式並行信息處理的算法數學模型。
M-P神經元模型、激活函數、卷積函數、
2.深度學習入門四
機器學習的三種主要形式:監督學習、非監督學習和半監督學習。

它們之間核心區別在於是否(部分)使用了標籤數據 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章