台部落stormisover

上一次我們談到了用 k-means 進行聚類的方法，這次我們來說一下另一個很流行的算法：Gaussian Mixture Model (GMM)。事實上，GMM 和 k-means 很像，不過 GMM 是學習出一些概率密度函數來（所以 G

2019-02-22 22:38:27

請各位讀者深吸一口氣……呼…… 開始…… （一）阿黃是大家敬愛的警官，他性格開朗，身體強壯，是大家心目中健康的典範。但是，近一個月來阿黃的身體狀況出現異常：情緒失控的狀況時有發生。有時候忍不住放聲大笑，有時候有時候愁眉不展，

2019-02-22 22:38:17

從 SVM的那幾張圖可以看出來，SVM是一種典型的兩類分類器，即它只回答屬於正類還是負類的問題。而現實中要解決的問題，往往是多類的問題（少部分例外，例如垃圾郵件過濾，就只需要確定“是”還是“不是”垃圾郵件），比如文本分類，比如數字識別。如

2019-02-22 22:38:16

（一）SVM的八股簡介支持向量機(Support Vector Machine)是Cortes和Vapnik於1995年首先提出的，它在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢，並能夠推廣應用到函數擬合等其他機器學習問題中[

2019-02-22 22:38:16

漫談 Clustering (2): k-medoids by pluskid, on 2009-01-08, in Machine Learning 27 comments Samoyed 本文是“漫談 Clu

2019-02-22 22:38:16

51CTO博客開發

2019-02-22 22:38:15

以下是我從網上收集的關於組合博弈的資料彙總：有一種很有意思的遊戲，就是有物體若干堆，可以是火柴棍或是圍棋子等等均可。兩個人輪流從堆中取物體若干，規定最後取光物體者取勝。這是我國民間很古老的一個遊戲，別看這遊戲極其簡單，卻蘊含着

2019-02-22 22:38:15

讓我再一次比較完整的重複一下我們要解決的問題：我們有屬於兩個類別的樣本點（並不限定這些點在二維空間中）若干，如圖，圓形的樣本點定爲正樣本（連帶着，我們可以把正樣本所屬的類叫做正類），方形的點定爲負例。我們想求得這樣一個線性函數（在n維

2019-02-22 22:38:15

生存？還是毀滅？——哈姆雷特可分？還是不可分？——支持向量機之前一直在討論的線性分類器,器如其名（汗，這是什麼說法啊），只能對線性可分的樣本做處理。如果提供的樣本線性不可分，結果很簡單，線性分類器的求解程序會無限循環，永遠也解不出來。

2019-02-22 22:38:14

現在我們已經把一個本來線性不可分的文本分類問題，通過映射到高維空間而變成了線性可分的。就像下圖這樣：圓形和方形的點各有成千上萬個（畢竟，這就是我們訓練集中文檔的數量嘛，當然很大了）。現在想象我們有另一個訓練集，只比原先這個訓練集多

2019-02-22 22:38:14

從最一般的定義上說，一個求最小值的問題就是一個優化問題（也叫尋優問題，更文縐縐的叫法是規劃——Programming），它同樣由兩部分組成，目標函數和約束條件，可以用下面的式子表示：（式1）約束條件用函數c來表示，就是constrai

2019-02-22 22:38:14

好久沒有寫 blog 了，一來是 blog 下線一段時間，而租 DreamHost 的事情又一直沒弄好；二來是沒有太多時間，天天都跑去實驗室。現在主要折騰 Machine Learning 相關的東西，因爲很多東西都不懂，所以平時也找一些

2019-02-22 22:38:14

上節說到我們有了一個線性分類函數，也有了判斷解優劣的標準——即有了優化的目標，這個目標就是最大化幾何間隔，但是看過一些關於SVM的論文的人一定記得什麼優化的目標是要最小化||w||這樣的說法，這是怎麼回事呢？回頭再看看我們對間隔和幾何間隔

2019-02-22 22:38:14

接下來要說的東西其實不是鬆弛變量本身，但由於是爲了使用鬆弛變量才引入的，因此放在這裏也算合適，那就是懲罰因子C。回頭看一眼引入了鬆弛變量以後的優化問題：注意其中C的位置，也可以回想一下C所起的作用（表徵你有多麼重視離羣點，C越大越重視

2019-02-22 22:38:14

2018-09-12 06:33:45