原创 漫談 Clustering (3): Gaussian Mixture Model

 上一次我們談到了用 k-means 進行聚類的方法,這次我們來說一下另一個很流行的算法:Gaussian Mixture Model (GMM)。事實上,GMM 和 k-means 很像,不過 GMM 是學習出一些概率密度函數來(所以 G

原创 隱馬爾可夫模型(HMM)簡介

請各位讀者深吸一口氣……呼…… 開始…… (一) 阿黃是大家敬愛的警官,他性格開朗,身體強壯,是大家心目中健康的典範。 但是,近一個月來阿黃的身體狀況出現異常:情緒失控的狀況時有發生。有時候忍不住放聲大笑,有時候有時候愁眉不展,

原创 SVM入門(十)將SVM用於多類分類

從 SVM的那幾張圖可以看出來,SVM是一種典型的兩類分類器,即它只回答屬於正類還是負類的問題。而現實中要解決的問題,往往是多類的問題(少部分例外,例如垃圾郵件過濾,就只需要確定“是”還是“不是”垃圾郵件),比如文本分類,比如數字識別。如

原创 SVM入門(一)至(三)

(一)SVM的八股簡介 支持向量機(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的,它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,並能夠推廣應用到函數擬合等其他機器學習問題中[

原创 漫談 Clustering (2): k-medoids

  漫談 Clustering (2): k-medoids  by pluskid, on 2009-01-08, in Machine Learning     27 comments Samoyed 本文是“漫談 Clu

原创 我的友情鏈接

51CTO博客開發

原创 博弈知識彙總

 以下是我從網上收集的關於組合博弈的資料彙總: 有一種很有意思的遊戲,就是有物體若干堆,可以是火柴棍或是圍棋子等等均可。兩個 人輪流從堆中取物體若干,規定最後取光物體者取勝。這是我國民間很古老的一個遊戲 ,別看這遊戲極其簡單,卻蘊含着

原创 SVM入門(六)線性分類器的求解——問題的轉化,直觀角度

讓我再一次比較完整的重複一下我們要解決的問題:我們有屬於兩個類別的樣本點(並不限定這些點在二維空間中)若干,如圖, 圓形的樣本點定爲正樣本(連帶着,我們可以把正樣本所屬的類叫做正類),方形的點定爲負例。我們想求得這樣一個線性函數(在n維

原创 SVM入門(七)爲何需要核函數

生存?還是毀滅?——哈姆雷特 可分?還是不可分?——支持向量機 之前一直在討論的線性分類器,器如其名(汗,這是什麼說法啊),只能對線性可分的樣本做處理。如果提供的樣本線性不可分,結果很簡單,線性分類器的求解程序會無限循環,永遠也解不出來。

原创 SVM入門(八)鬆弛變量

現在我們已經把一個本來線性不可分的文本分類問題,通過映射到高維空間而變成了線性可分的。就像下圖這樣:   圓形和方形的點各有成千上萬個(畢竟,這就是我們訓練集中文檔的數量嘛,當然很大了)。現在想象我們有另一個訓練集,只比原先這個訓練集多

原创 SVM入門(五)線性分類器的求解——問題的描述Part2

從最一般的定義上說,一個求最小值的問題就是一個優化問題(也叫尋優問題,更文縐縐的叫法是規劃——Programming),它同樣由兩部分組成,目標函數和約束條件,可以用下面的式子表示: (式1) 約束條件用函數c來表示,就是constrai

原创 漫談 Clustering (1): k-means

 好久沒有寫 blog 了,一來是 blog 下線一段時間,而租 DreamHost 的事情又一直沒弄好;二來是沒有太多時間,天天都跑去實驗室。現在主要折騰 Machine Learning 相關的東西,因爲很多東西都不懂,所以平時也找一些

原创 SVM入門(四)線性分類器的求解——問題的描述Part1

上節說到我們有了一個線性分類函數,也有了判斷解優劣的標準——即有了優化的目標,這個目標就是最大化幾何間隔,但是看過一些關於SVM的論文的人一定記得什麼優化的目標是要最小化||w||這樣的說法,這是怎麼回事呢?回頭再看看我們對間隔和幾何間隔

原创 SVM入門(九)鬆弛變量(續)

接下來要說的東西其實不是鬆弛變量本身,但由於是爲了使用鬆弛變量才引入的,因此放在這裏也算合適,那就是懲罰因子C。回頭看一眼引入了鬆弛變量以後的優化問題: 注意其中C的位置,也可以回想一下C所起的作用(表徵你有多麼重視離羣點,C越大越重視

原创 漫談 Clustering (3): Gaussian Mixture Model

 上一次我們談到了用 k-means 進行聚類的方法,這次我們來說一下另一個很流行的算法:Gaussian Mixture Model (GMM)。事實上,GMM 和 k-means 很像,不過 GMM 是學習出一些概率密度函數來(所以 G