從本章開始,進入本文的核心章節。一共分三章,分別講述信號處理與模式識別,圖像處理與分析以及計算機視覺。與其說是講述,不如說是一些經典文章的羅列以及自己的簡單點評。與前一個版本不同的是,這次把所有的文章按類別歸了類,並且增加了很多文獻。分類的時候並沒有按照傳統的分類方法,而是劃分成了一個個小的門類,比如SIFT,Harris都作爲了單獨的一類,雖然它們都可以劃分到特徵提取裏面去。這樣做的目的是希望能突出這些比較實用且比較流行的方法。爲了以後維護的方法,按照字母順序排的序。
本章的下載地址在:
http://iask.sina.com.cn/u/2252291285/ish?folderid=868770
1. Boosting
Boosting是最近十來年來最成功的一種模式識別方法之一,個人認爲可以和SVM並稱爲模式識別雙子星。它真正實現了“三個臭皮匠,賽過諸葛亮”。只要保證每個基本分類器的正確率超過50%,就可以實現組合成任意精度的分類器。這樣就可以使用最簡單的線性分類器。Boosting在計算機視覺中的最成功的應用無疑就是Viola-Jones提出的基於Haar特徵的人臉檢測方案。聽起來似乎不可思議,但Haar+Adaboost確實在人臉檢測上取得了巨大的成功,已經成了工業界的事實標準,並且逐步推廣到其他物體的檢測。
Rainer Lienhart在2002 ICIP發表的這篇文章是Haar+Adaboost的最好的擴展,他把原始的兩個方向的Haar特徵擴展到了四個方向,他本人是OpenCV積極的參與着。現在OpenCV的庫裏面實現的Cascade Classification就包含了他的方法。這也說明了盛會(如ICIP,ICPR,ICASSP)也有好文章啊,只要用心去發掘。
[1997] A Decision-Theoretic Generalization of on-Line Learning and an Application to Boosting
[1998] Boosting the margin A new explanation for the effectiveness of voting methods
[2002 ICIP TR] Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection
[2003] The Boosting Approach to Machine Learning An Overview
[2004 IJCV] Robust Real-time Face Detection
2. Clustering
聚類主要有K均值聚類,譜聚類和模糊聚類。在聚類的時候如果自動確定聚類中心的數目是一個一直沒有解決的問題。不過這也很正常,評價標準不同,得到的聚類中心數目也不一樣。不過這方面還是有一些可以參考的文獻,在使用的時候可以基於這些方法設計自己的準則。關於聚類,一般的模式識別書籍都介紹的比較詳細,不過關於cluster validity講的比較少,可以參考下面的文章看看。
[1989 PAMI] Unsupervised Optimal Fuzzy Clustering
[1991 PAMI] A validity measure for fuzzy clustering
[1995 PAMI] On cluster validity for the fuzzy c-means model
[1998] Some New Indexes of Cluster Validity
[1999 ACM] Data Clustering A Review
[1999 JIIS] On Clustering Validation Techniques
[2001] Estimating the number of clusters in a dataset via the Gap statistic
[2001 NIPS] On Spectral Clustering
[2002] A stability based method for discovering structure in clustered data
[2007] A tutorial on spectral clustering
3. Compressive Sensing
最近大紅大紫的壓縮感知理論。
[2006 TIT] Compressed Sensing
[2008 SPM] An Introduction to Compressive Sampling
[2011 TSP] Structured Compressed Sensing From Theory to Applications
4. Decision Trees
對決策樹感興趣的同學這篇文章是非看不可的了。
[1986] Introduction to Decision Trees
5. Dynamical Programming
動態規劃也是一個比較使用的方法,這裏挑選了一篇PAMI的文章以及一篇Book Chapter
[1990 PAMI] using dynamic programming for solving variational problems in vision
[Book Chapter] Dynamic Programming
6. Expectation Maximization
EM是計算機視覺中非常常見的一種方法,尤其是對參數的估計和擬合,比如高斯混合模型。EM和GMM在Bishop的PRML裏單獨的作爲一章,講的很不錯。關於EM的tutorial,網上也可以搜到很多。
[1977] Maximum likelihood from incomplete data via the EM algorithm
[1996 SPM] The Expectation-Maximzation Algorithm
7. Graphical Models
伯克利的喬丹大仙的Graphical Model,可以配合這Bishop的PRML一起看。
[1999 ML] An Introduction to Variational Methods for Graphical Models
8. Hidden Markov Model
HMM在語音識別中發揮着巨大的作用。在信號處理和圖像處理中也有一定的應用。最早接觸它是跟小波和檢索相關的,用HMM來描述小波係數之間的相互關係,並用來做檢索。這裏提供一篇1989年的經典綜述,幾篇HMM在小波,分割,檢索和紋理上的應用以及一本比較早的中文電子書,現在也不知道作者是誰,在這裏對作者表示感謝。
[1989 ] A tutorial on hidden markov models and selected applications in speech recognition
[1998 TSP] Wavelet-based statistical signal processing using hidden Markov models
[2001 TIP] Multiscale image segmentation using wavelet-domain hidden Markov models
[2002 TMM] Rotation invariant texture characterization and retrieval using steerable wavelet-domain hiddenMarkov models
[2003 TIP] Wavelet-based texture analysis and synthesis using hidden Markov models
Hmm Chinese book.pdf
9. Independent Component Analysis
同PCA一樣,獨立成分分析在計算機視覺中也發揮着重要的作用。這裏介紹兩篇綜述性的文章,最後一篇是第二篇的TR版本,內容差不多,但比較清楚一些。
[1999] Independent Component Analysis A Tutorial
[2000 NN] Independent component analysis algorithms and applications
[2000] Independent Component Analysis Algorithms and Applications
10. Information Theory
計算機視覺中的信息論。這方面有一本很不錯的書Information Theory in Computer Vision and Pattern Recognition。這本書有電子版,如果需要用到的話,也可以參考這本書。
[1995 NC] An Information-Maximization Approach to Blind Separation and Blind Deconvolution
[2010] An information theory perspective on computational vision
11. Kalman Filter
這個話題在張賢達老師的現代信號處理裏面講的比較深入,還給出了一個有趣的例子。這裏列出了Kalman的最早的論文以及幾篇綜述,還有Unscented Kalman Filter。同時也有一篇Kalman Filter在跟蹤中的應用以及兩本電子書。
[1960 Kalman] A New Approach to Linear Filtering and Prediction Problems Kalman
[1970] Least-squares estimation_from Gauss to Kalman
[1997 SPIE] A New Extension of the Kalman Filter to Nonlinear System
[2000] The Unscented Kalman Filter for Nonlinear Estimation
[2001 Siggraph] An Introduction to the Kalman Filter_full
[2003] A Study of the Kalman Filter applied to Visual Tracking
12. Pattern Recognition and Machine Learning
模式識別名氣比較大的幾篇綜述
[2000 PAMI] Statistical pattern recognition a review
[2004 CSVT] An Introduction to Biometric Recognition
[2010 SPM] Machine Learning in Medical Imaging
13. Principal Component Analysis
著名的PCA,在特徵的表示和特徵降維上非常有用。
[2001 PAMI] PCA versus LDA
[2001] Nonlinear component analysisas a kernel eigenvalue problem
[2002] A Tutorial on Principal Component Analysis
[2004 PAMI] Two-dimensional PCA a new approach to appearance-based face representation and recognition
[2009] A Tutorial on Principal Component Analysis
[2011] Robust Principal Component Analysis
[Book Chapter] Singular Value Decomposition and Principal Component Analysis
14. Random Forest
隨機森林
[2001 ML] Random Forests
15. RANSAC
隨機抽樣一致性方法,與傳統的最小均方誤差等完全是兩個路子。在Sonka的書裏面也有提到。
[2009 BMVC] Performance Evaluation of RANSAC Family
16. Singular Value Decomposition
對於非方陣來說,就是SVD發揮作用的時刻了。一般的模式識別書都會介紹到SVD。這裏列出了K-SVD以及一篇BookChapter
[2006 TSP] K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation
[Book Chapter] Singular Value Decomposition and Principal Component Analysis
17. Sparse Representation
這裏主要是Proceeding of IEEE上的幾篇文章
[2009 PAMI] Robust Face Recognition via Sparse Representation
[2009 PIEEE] Image Decomposition and Separation Using Sparse Representations An Overview
[2010 PIEEE] Dictionaries for Sparse Representation Modeling
[2010 PIEEE] It's All About the Data
[2010 PIEEE] Matrix Completion With Noise
[2010 PIEEE] On the Role of Sparse and Redundant Representations in Image Processing
[2010 PIEEE] Sparse Representation for Computer Vision and Pattern Recognition
[2011 SPM] Directionary Learning
18. Support Vector Machines
[1998] A Tutorial on Support Vector Machines for Pattern Recognition
[2004] LIBSVM A Library for Support Vector Machines
19. Wavelet
在小波變換之前,時頻分析的工具只有傅立葉變換。衆所周知,傅立葉變換在時域沒有分辨率,不能捕捉局部頻域信息。雖然短時傅立葉變換克服了這個缺點,但只能刻畫恆定窗口的頻率特性,並且不能很好的擴展到二維。小波變換的出現很好的解決了時頻分析的問題,作爲一種多分辨率分析工具,在圖像處理中得到了極大的發展和應用。在小波變換的發展過程中,有幾個人是不得不提的,Mallat, Daubechies,Vetteri, M.N.Do, Swelden,Donoho。Mallat和Daubechies奠定了第一代小波的框架,他們的著作更是小波變換的必讀之作,相對來說,小波十講太偏數學了,比較難懂。而Mallat的信號處理的小波導引更偏應用一點。Swelden提出了第二代小波,使小波變換能夠快速方便的實現,他的功勞有點類似於FFT。而Donoho,Vetteri,Mallat及其學生們提出了Ridgelet, Curvelet, Bandelet,Contourlet等幾何小波變換,讓小波變換有了方向性,更便於壓縮,去噪等任務。尤其要提的是M.N.Do,他是一個越南人,得過IMO的銀牌,在這個領域著作頗豐。我們國家每年都有5個左右的IMO金牌,希望也有一兩個進入這個領域,能夠也讓我等也敬仰一下。而不是一股腦的都進入金融,管理這種跟數學沒有多大關係的行業,呵呵。很希望能看到中國的陶哲軒,中國的M.N.Do。
說到小波,就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法實現的9/7小波和5/3小波。如果對比JPEG和JPEG2000,就會發現JPEG2000比JPEG在性能方面有太多的提升。本來我以爲JPEG2000的普及只是時間的問題。但現在看來,這個想法太Naive了。現在已經過去十幾年了,JPEG2000依然沒有任何出頭的跡象。不得不說,工業界的慣性力量太強大了。如果以前的東西沒有什麼硬傷的話,想改變太難了。不巧的是,JPEG2000的種種優點在最近的硬件上已經有了很大的提升。壓縮率?現在動輒1T,2T的硬盤,沒人太在意壓縮率。漸進傳輸?現在的網速包括無線傳輸的速度已經相當快了,漸進傳輸也不是什麼優勢。感覺現在做圖像壓縮越來越沒有前途了,從最近的會議和期刊文檔也可以看出這個趨勢。不管怎麼說,JPEG2000的Overview還是可以看看的。
[1989 PAMI] A theory for multiresolution signal decomposition__the wavelet representation
[1996 PAMI] Image Representation using 2D Gabor Wavelet
[1998 ] FACTORING WAVELET TRANSFORMSIN TO LIFTING STEPS
[1998] The Lifting Scheme_ A Construction Of Second Generation Wavelets
[2000 TCE] The JPEG2000 still image coding system_ an overview
[2002 TIP] The curvelet transform for image denoising
[2003 TIP] Gray and color imagecontrast enhancement by the curvelet transform
[2003 TIP] Mathematical Properties of the jpeg2000 wavelet filters
[2003 TIP] The finite ridgelet transform for image representation
[2005 TIP] Sparse Geometric Image Representations With Bandelets
[2005 TIP] The Contourlet Transform_ An Efficient Directional Multiresolution Image Representation
[2010 SPM] The Curvelet Transform