原创 VC維

有關於VC維可以在很多機器學習的理論中見到,它是一個重要的概念。在讀《神經網絡原理》的時候對一個實例不是很明白,通過這段時間觀看斯坦福的機器學習公開課及相關補充材料,又參考了一些網絡上的資料(主要是這篇,不過個人感覺仍然沒有抓住重點),

原创 機器學習小結

1. 認真學習一個機器學習工具箱(如R, SHOGUN,Weka, scikit-learn)。2. 認真分析一個機器學習數據集。3. 深入瞭解一個

原创 快速入門:十分鐘學會Python

初試牛刀 假設你希望學習Python這門語言,卻苦於找不到一個簡短而全面的入門教程。那麼本教程將花費十分鐘的時間帶你走入Python的大門。本文的內容介於教程(Toturial)和速查手冊(CheatSheet)之間,因此只會包含

原创 快速入門:十分鐘學會Python

初試牛刀 假設你希望學習Python這門語言,卻苦於找不到一個簡短而全面的入門教程。那麼本教程將花費十分鐘的時間帶你走入Python的大門。本文的內容介於教程(Toturial)和速查手冊(CheatSheet)之間,因此只會包含

原创 SMO序列最小最優化算法

首先回顧一下SVM模型的數學表達,即svm的對偶問題: mina12∑i=1N∑j=1NaiajyiyjK(xi,xj)−∑i=1Nais.t.∑i=1Naiyi=00≤ai≤C,i=1,2,⋅⋅⋅,N 選擇一個 a∗ 的正分量

原创 機器學習中的範數規則化之(二)核範數與規則項參數選擇

上一篇博文,我們聊到了L0,L1和L2範數,這篇我們絮叨絮叨下核範數和規則項參數選擇。知識有限,以下都是我一些淺顯的看法,如果理解存在錯誤,希望大家不吝指正。謝謝。   三、核範數        核範數||W||*是指矩陣奇異值的

原创 Latent Dirichlet Allocation(LDA)

狄利克雷分佈[編輯] 狄利克雷分佈是一組連續多變量概率分佈,是多變量普遍化的Β分佈。爲了紀念德國數學家約翰·彼得·古斯塔夫·勒熱納·狄利克雷(Peter Gustav Lejeune Dirichlet)而命名。狄利克

原创 scipy: 科學計算

Scipy:高端科學計算 作者:Adrien Chauve, Andre Espaze, Emmanuelle Gouillart, Gaël Varoquaux, Ralf Gommers 翻譯自:scipy lecture n

原创 機器學習中的範數規則化之(一)L0、L1與L2範數

今天我們聊聊機器學習中出現的非常頻繁的問題:過擬合與規則化。我們先簡單的來理解下常用的L0、L1、L2和核範數規則化。最後聊下規則化項參數的選擇問題。這裏因爲篇幅比較龐大,爲了不嚇到大家,我將這個五個部分分成兩篇博文。知識有限,以下都是

原创 Discover Feature Engineering, How to Engineer Features and How to Get Good at It

Feature engineering is an informal topic, but one that is absolutely known and agreed to be key to success in applied

原创 semi-supervised learning

 最近的一段時間一直在學習半監督學習算法,目前,國內的南京大學周志華老師是這方面的泰斗,寫了很多這方面牛的文章,可以參考一下他的主頁:http://cs.nju.edu.cn/zhouzh/。在國內的學術界周老師一直是我比較欽佩的人之一

原创 Python中的random模塊

Python中的random模塊用於生成隨機數。下面介紹一下random模塊中最常用的幾個函數。 random.random random.random()用於生成一個0到1的隨機符點數: 0 <= n < 1.0 random.

原创 python之matplotlib學習

學習《matplotlib for python Developers》筆記 python中使用matplotlib通常有以下三種方式 1,通過使用pyplot模塊,提供類似Matlab命令的方式。 2,pylab模塊,集合Mat

原创 numpy函數:[9]zeros創建0矩陣

經常用到一些0數組,就是元素均爲0的數組。那麼怎麼在python中創建0數組呢?我們用到了zeros函數,下面看看這個函數的用法: 首先要引入一下numpy這個包 試着創建一個一維數組,只使用一個參數就可以了 默認情況下,z

原创 準確率與召回率

在信息檢索、分類體系中,有一系列的指標,搞清楚這些指標對於評價檢索和分類性能非常重要,因此最近根據網友的博客做了一個彙總。 準確率、召回率、F1 信息檢索、分類、識別、翻譯等領域兩個最基本指標是召回率(Recall Rate)和準確