原创 faster rcnn 訓練pascal_voc數據集

硬件需求和軟件的安裝和fast rcnn類似,直接開始訓練voc2007。 1  下載數據集,並解壓 cd py_faster_rcnn/data wget http://host.robots.ox.ac.uk/pascal/VOC

原创 fcn語義分割 論文

全卷積網絡: 個人認爲本文主要是兩個重點: 第一是fcn,全卷積網絡(+上採樣) 第二是skip net 首先說全卷積網絡: 通常cnn在卷積層後會接上若干全連接層,但是全連接層和卷積層的連接數量是固定的,這也就導致了輸入必須是固定的尺寸

原创 有序二維數組查找元素

在一個二維數組中,每一行都按照從左到右遞增的順序排序,每一列都按照從上到下遞增的順序排序。請完成一個函數,輸入這樣的一個二維數組和一個整數,判斷數組

原创 lec2 圖像分類的方法

圖像分類: 作業:(python代碼) 1、knn 2、svm softmax 3、2層神經網絡 圖片分類 從以往經驗來看目標需要在整個圖像的中間,儘量佔據較大的空間。 圖像分類面對的挑戰: 1、光照 2、物體形變 3、遮擋 4、目標和

原创 alexnet 通過深度卷積對ImageNet圖像進行分類

imagenet上使用深度卷積網絡   背景介紹 目前的數據集太小,而複雜的圖像分類和識別任務需要更多的數據訓練。 對於大量的數據又需要容量大的網絡,cnn網絡可以通過調節寬度和深度來調節網絡的容量。cnn相比於標準的前饋網絡有較少的鏈接

原创 faster rcnn論文

背景:proposals的生成成爲目標檢測的瓶頸。 作者祭出faster rcnn = rpn + fast rcnn的結構,本文主要介紹rpn網絡。 rpn網絡同時預測目標的邊界proposal座標 和 proposal的得分,並且在訓

原创 參數更新方法

代碼實現 https://github.com/hsmyy/zhihuzhuanlan/blob/master/momentum.ipynb 1、梯

原创 KNN和線性分類器

圖像分類的困難和挑戰:對於人來說,識別出一個像“貓”一樣視覺概念是簡單至極的,然而從計算機視覺算法的角度來看就值得深思了。我們在下面列舉了計算機視覺算法在圖像識別方面遇到的一些困難,要記住圖像是以3維數組來表示的,數組中的元素是亮度值。

原创 rcnn論文

面臨的挑戰: 1、目標檢測窗口生成: 方法一:將檢測任務作爲迴歸問題 方法二:滑動窗 方法三:selective search 2、數據集較少 通過在大的數據集ILSVRC上進行有監督的預訓練 測試模塊的設計: 1、目標建議框的生成:s

原创 batch normalization論文

通過減少internal Covariate shift加速深度網絡的訓練。 什麼是internal Covariate shift? 由於前一層參數的變化導致了後一層輸入分佈的變化。這需要減少學習率並且需要小心地初始化網絡,並且由於非線

原创 yolo論文

綜述: 將物體檢測任務(劃分邊界框和類別的可能性)作爲迴歸問題來解決。 速度非常快,但是可能產生定位的誤差,相比於rcnn,減少了假陽性。 從上圖可以看出結構非常簡單 優勢: 1、速度非常快 2、處理全局的信息。在 訓練和測試的使用看到

原创 googlenet 論文

0、 inception結構 利用網絡中的計算資源,增加網絡的寬度和深度,但保持計算量不變。   1、 本文中,首先創新點在於算法和網絡結構; 其次注意了移動端和嵌入式的場景,考慮內存和功耗,所以提出的結構並不是固定的,參數少

原创 network in network論文

本文主要是對傳統的卷積網絡進行改進,關鍵點有兩個: 第一:mlpconv 第二:全局平均池化   傳統的cnn可以看做是廣義線性模型GLM,所以cnn覺得潛在的概念都是線性可分的。(但是cnn+非線性激活不是能模擬出非線性嗎?)但是一些數

原创 overfeat論文待續

從文章題目來看,Integrated recognition,localization and detection using convolutional network,就是將分類、定位、檢測通過卷積網絡整合在一起。 本文作者展示了:

原创 前饋網絡訓練的困難

(早期)神經網絡通常使用隨機初始化和標準的梯度下降法來訓練,但是效果不好,這是由於非線性激活層飽和(雖然有時能夠自己走出飽和區域)。 目前已經通過良好的初始化和一些訓練策略取得了較好的訓練效果。 尤其是無監督的預訓練(目前來看已經是標準的