原创 《集體智慧編程》之決策樹(學習筆記)

原理: 決策樹提供了一種展示類似在什麼條件下會得到什麼值這類規則的方法。比如,在貸款申請中,要對申請的風險大小做出判斷,圖是爲了解決這個問題而建立的一棵決策樹,從中我們可以看到決策樹的基本組成部分:決策節點、分支和葉子。決策樹中最上面的節

原创 NMF算法簡介及python實現(gradient descent)

原文鏈接:http://www.albertauyeung.com/mf.php 基本原理 NMF,非負矩陣分解,它的目標很明確,就是將大矩陣分解成兩個小矩陣,使得這兩個小矩陣相乘後能夠還原到大矩陣。而非負表示分解的矩陣都不包含負值。 從

原创 lucene學習筆記之構建索引

構建索引 2.2理解索引過程 文本首先從原始數據中提取出來用於創建對應的Document實例,該實例包括多個Field實例,他們都用來保存原始數據信息,隨後的分析過程將域文本處理成大量的語彙單元,最後將語彙單元加入到段結構中。 2.2.

原创 支持向量機筆記(四) Kernel

最後的最後多說一句關於上面的特徵映射到維的特徵空間,其實如果給的那個例子用它來算應該是10維,而作者寫出了13維,多的那三維是作者把,這對於最後的結果沒有影響,因爲我們可以認爲上面作者沒有合併同類項,如果寫成10維,那就是合

原创 python庫學習之re

re庫 (以下內容來自Python v3.2.3 documentation) 前段時間因爲要做實驗當誤了好長時間,從今天開始繼續學習python,後面將學習一系列的庫,爲了加深映像所以把文檔中常用的摘抄如下,希望自己在理解的基礎上牢記

原创 支持向量機筆記(五) regularization and SMO

到目前爲止,SVM爲描述爲在低維,或者映射到高維後線性可分,然而對於有一些outliers的情況,我們所得到的超平面就不一定是最好的,就像下圖中的一樣,這個outliers明顯影響了超平面的劃分: 爲了讓這個算法,對outliers變得

原创 支持向量機筆記(二) Lagrange duality

                                                             拉格朗日對偶 因爲下一講要用到這方面的知識,所以先在這裏學習下,它其實就是我們本科階段所學的拉格朗日乘數法: 以上

原创 《深入java虛擬機》學習筆記(第十九章 方法的調用和返回)

19.1 方法調用 Java提供了兩種基本的方法:實例方法和類(靜態)方法。這兩種方法的區別在於: 1)實例方法在被調用之前,需要一個實例,而類方法不需要。 2)實例方法使用動態綁定,而類方法使用靜態綁定 當Java虛擬機調用一個類方法時

原创 聚類算法 之 Gaussian Mixture Model

以下文章轉自:http://blog.pluskid.org/?p=39 上一次我們談到了用 k-means 進行聚類的方法,這次我們來說一下另一個很流行的算法:Gaussian Mixture Model (GMM)。事實上,GMM 和

原创 動態規劃之LCS

最長公共子序列的意思就是兩個序列,有公共的部分,公共部分在這兩個序列的位置上不一定相等,但序列的邏輯順序是相等的 例如給定兩個序列x[1..m]和y[1..n],找出一個(注,這裏說的是一個而不是這個,也就是說可能有很多個)最長的公共序列

原创 NumPy for Matlab Users

因爲要在Python中用到matlab的有關知識,所以在這裏介紹一個新的module-------------numpy,以下內容翻譯自: http://www.scipy.org/NumPy_for_Matlab_Users/#head

原创 支持向量機筆記(一) functional and geometric margins

最近在看機器學習,感覺有點朦朧,於是寫下這些知識點,在自己忘記的時候能夠翻出來看看。我是以stanford的cs229的講義爲藍本的,上面有些洋文我感覺翻譯出來就失去了原有的味道,(主要是我不會翻譯)。 首先我們可以回顧下logistic

原创 python學習筆記

Python學習筆記   因爲是搞nlp的,而python作爲腳本語言對處理語料等方面有着先天的優勢,所以近期好好學習了下它,下面是一些我的筆記,比較粗略,主要爲了以後好複習。 Sys.path環境變量 數字,字符串,列表,字典,元組

原创 聚類算法 之 k-means

本文轉自:http://blog.pluskid.org/?p=17  Clustering 中文翻譯作“聚類”,簡單地說就是把相似的東西分到一組,同 Classification (分類)不同,對於一個 classifier ,通常需要

原创 貪心算法之Bellman-Ford

前面都是邊的權值是正的情況,如果一個圖包含負權值的環,那麼最短路徑可能不存在。而Bellman-Ford算法:從源s∈V到所有v∈V找到所有的最短路徑的長度或者檢測是否有一個負環路存在。 算法如下: 算法的前面還是和Dijkstra一樣