cnn爲什麼在提取特徵時那麼有效?

其實我是來提問題的,不是來解答問題的。


cnn吧,其實是lecun那位神做的。其實雖然是hinton是現在DL的大神,但是火起來或許主要是因爲alex的那篇imagenet2012啊,大規模的圖像數據分類,效果得到了大幅度提高,取得了state of art的結果。然後,ng之所以在times什麼的報道里有,大概是因爲沾了google的不少便宜吧,識別貓臉和人臉,無監督,大規模圖像數據。


其實,dl自始至終大概都是有一個概念,就是representation,這個在hinton的經典文章裏也提到了,類似於PCA。cnn得到的特徵到底可以用來做什麼呢?我想看看PCA能用在哪裏吧,分類中是必不可少的,而別的類別,這雨後春筍也都出來了。detection(r-cnn), 還有語音識別等等,前幾天看到一篇文章,cnn features off the shelf an astounding baseline for recognition,從標題大概就能明白了,cnn得到的feature可以分類、檢測、識別還有retrieval,我們小組大概讀了一下其中的retrieval,效果是可以的。


從cnn的一系列可視化文章中,可以看到cnn提取到的特徵,在高層已經是一種語義組合了,這個不就是前幾年大家都在說的,要提取語義特徵什麼的嘛。層越低,特徵越原始,比如一層卷積的結果,就是顏色和邊緣特徵,我估計從這一層得到的結果和邊緣檢測什麼的sift差不多吧。


具體效果爲什麼這麼好呢。我估計是因爲不同層節點之間相連,有點類似於人的神經,在有監督情況下,會根據標籤,有目的地去激活一些節點,而抑制另外一些節點。就像大腦一樣,看到一件事物,會根據信息,經過節點,形成語義知識,然後就形成我們大腦中的概念,也就是物體是什麼。


數學上的證明嘛,其實我也不知道,其實我覺得應該先把人的大腦用數學模型建立起來,知道那些節點和神經元是在學習東西時激活的,然後再來看看DL。


發佈了415 篇原創文章 · 獲贊 26 · 訪問量 86萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章