【論文速讀】RCNN

路線1

(1)https://www.jianshu.com/p/52e6e184b786
(2)https://zhuanlan.zhihu.com/p/30316608
(3)http://blog.csdn.net/WoPawn/article/details/52133338
(4)其他知識點：
hard-negative mining https://www.zhihu.com/question/46292829/answers/created
map計算 http://caffecn.cn/?/question/1392 https://www.jianshu.com/p/f28a376748c4，http://blog.csdn.net/jesse_mx/article/details/79169991
https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote（最後再過一遍）

【訓練階段】
A:訓練集中的所有圖像
（1）selective search

B:區域建議region proposal（每個圖片約2000個候選區域）
（2）擴大一定範圍，縮放圖片數量爲2000*（227*227：alexnet要求輸入圖像227*227）
（3）使用正樣本（真實樣本+IOU>0.5的建議框）負樣本（IOU<0.5建議框，其中背景樣本佔比75%）對AlexNet進行finetune（類別爲N+1，爲什麼不直接使用分類結果——效果不好）

C:候選區域的特徵：取CNN的f7層輸出
（4）使用正樣本（真實樣本）負樣本（IOU<0.3的建議框）的特徵x訓練（N+1）個SVM

D:候選區域的類別
（5）使用（（4）中被確定了的最大IOU候選區域&其IOU>0.6，每個類別會找到N個最覆蓋了實際區域的框框）的邊框以及CNN訓練的【3過程提取了圖像的特徵，用來將原始座標映射爲新座標】pool5特徵，應用linear regression精確邊框座標（對於第i個lr模型，第j個真實區域的座標與第j個實際區域的座標可以理解有線性關係）

【測試階段】
A:輸入一張圖像
（1）selective search

B:區域建議region proposal：2000個候選區域
（2）擴大一定範圍，縮放圖片爲2000*（227*227）
（3）送入【訓練階段】後的Alexnet模型

C:候選區域的特徵：取CNN的f7層輸出2000*4096維矩陣
（4）使用20個SVM（權值矩陣：4096*20）分別確計算圖片屬於第N個類別的概率，獲得2000*20維矩陣，取最高

D:候選區域的類別
（5）使用20個迴歸器對上述20類別的建議框修正【爲什麼不只對（4）取出的最高類別進行修正？——（6）一個區域可能會有多個框框】
（6）使用非極大值抑制，保留最有可能的區域（一個區域，可能會有多個框框）

E:細化後的邊框座標

實驗心得
在網上找了一個網友使用f17lower的數據集進行訓練。（1是原始報告，2是對1的解讀，3、4是安裝）
1https://www.cnblogs.com/edwardbi/p/5647522.html
2https://blog.csdn.net/Houchaoqun_XMU/article/details/78640960
3https://www.cnblogs.com/wmr95/p/7500960.html
4https://blog.csdn.net/TotoroCyx/article/details/78503393

【論文速讀】RCNN

【安裝記錄】ssh+frp+docker+pycharm

【安裝記錄】遠程軟件

【安裝記錄】lift:learned invariant feature points

tesseract4.0：ubuntu16.04 +x64+leptonica1.74.4源碼安裝（ViewerDebugging）工具記錄

【安裝記錄】【UEFI++雙系統（win10+ubuntu16.04）+雙硬盤+深度學習】+【win10遠程連接ubuntu16.04】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結