原创 理解牛頓法

牛頓法與梯度下降法相比,收斂速度更快,在搜索空間中進行二階收斂,即以橢圓曲面去逼近最優解,也可以將牛頓法看作二次曲面下的梯度下降法。牛頓法對於凸二次最優問題,迭代一次即可得到最優解。 首先給出無約束最優目標問題定義(統計學習方法附

原创 語義網—RDFS

首先推薦介紹語義網基礎知識書籍,《語義網技術體系》 瞿裕忠,胡偉,程龔. 2015 RDFS(Resource Description Framework Schema)是在RDF的基礎上,提供了一個以”http://www.w3

原创 理解支持向量機(二)核函數

由之前對核函數的定義(見統計學習方法定義7.6): 設χ是輸入空間(歐氏空間或離散集合),Η爲特徵空間(希爾伯特空間),如果存在一個從χ到Η的映射 φ(x): χ→Η 使得對所有的x,z∈χ,函數Κ(x,z)=φ(x)∙

原创 理解數學空間,從距離到希爾伯特空間

在數學中有許多空間表示,比如歐幾里德空間、賦範空間、希爾伯特空間等。這些空間之間有什麼關係呢? 首先要從距離的定義說起。 什麼是距離呢?實際上距離除了我們經常用到的直線距離外,還有向量距離如Σni=1xi⋅yi−−−−−−−−√

原创 理解最大熵模型

最大熵模型與邏輯斯蒂迴歸模型一樣,屬於對數線性模型,因爲推導出的最大熵模型公式滿足輸入與輸出的對數函數成線性關係,如下: Pw(Y|X)=1Zw(x)exp(∑ni=1wifi(x,y)) 其中, Zw(x)=∑yexp(∑ni=

原创 理解梯度下降法

梯度下降法是求解無約束最優問題中常用到的一種學習方法,形式簡單,屬於一階收斂,在空間進行線性搜索。在前面講到的邏輯斯蒂迴歸模型中,就常用到梯度下降法來學習參數。 首先給出問題定義(統計學習方法附錄A): 假設f(x)是Rn 上

原创 概率模型與條件隨機場

1、概率模型 機器學習中的很多模型可以根據概率分佈形式分爲生成模型和判別模型,其中生成模型以輸入輸出的聯合分佈P(X,Y)爲基礎建模,如樸素貝葉斯、隱馬爾可夫模型;判別模型以條件概率分佈P(Y|X)爲基礎建模,如最大熵模型、條件

原创 推薦系統必讀的10篇精選技術文章

推薦系統近幾年來一直十分火熱,目前幾乎所有的電子商務系統、社交網絡,廣告推薦,搜索引擎等等,都不同程度的使用了各種形式的推薦系統。想知道電商如何向你發送廣告的?想了解社交網絡怎麼推薦好友的?想自己搭建一個推薦系統?想了解一些算法或

原创 理解邏輯斯蒂迴歸模型

邏輯斯蒂迴歸是一個非常經典的二項分類模型,也可以擴展爲多項分類模型。其在應用於分類時的過程一般如下,對於給定的數據集,首先根據訓練樣本點學習到參數w,b;再對預測點分別計算兩類的條件概率,將預測點判爲概率值較大的一類。 1、線性模

原创 理解支持向量機(三)SMO算法

在支持向量機模型的求解中,我們用到了SMO算法來求解向量α。那麼什麼是SMO算法?在講SMO算法之前,我們需要先了解以下座標上升法。 1、座標上升法 假設有優化問題: W是α向量的函數。利用座標上升法(當然,求目標函數的

原创 理解支持向量機(四)LibSVM工具包的使用

LibSVM是一款簡單易用的支持向量機工具包,包含了C和Java的開發源碼。大家可以訪問其官網進行了解和下載相關文件。 這裏以其官網的第一個數據集a1a 爲例,練習使用多項式核和徑向基核來對數據集進行分類。 1、準備工作 由於

原创 分類模型中的參數估計

在分類模型中,我們常常以聯合概率P(X,ω) 或者後驗概率P(ω|X) 建模,X={x1,x2,…,xd}表示一個d維向量,ω=ω1,ω2,…,ωk表示類別。 其中, P(X,ω)=P(X|ω)⋅P(ω) P(ω|X)=P

原创 維特比算法

維特比算法在機器學習中非常重要,在求解隱馬爾科夫和條件隨機場的預測問題中均用到了維特比算法。實際上,維特比算法不僅是很多自然語言處理的解碼算法,也是現代數字通信中使用最頻繁的算法。 以一個簡單的隱馬爾科夫模型爲例, x=(x

原创 Python實現基於樸素貝葉斯的垃圾郵件分類

聽說樸素貝葉斯在垃圾郵件分類的應用中效果很好,尋思樸素貝葉斯容易實現,就用python寫了一個樸素貝葉斯模型下的垃圾郵件分類。在400封郵件(正常郵件與垃圾郵件各一半)的測試集中測試結果爲分類準確率95.15%,在僅僅統計詞頻計算

原创 NLPIR分詞之N-最短路徑

N-最短路徑是中科院分詞工具NLPIR進行分詞用到的一個重要算法,張華平、劉羣老師在論文《基於N-最短路徑方法的中文詞語粗分模型》中做了比較詳細的介紹。該算法算法基本思想很簡單,就是給定一待處理字串,根據詞典,找出詞典中所有可能的